math/generic/hypotf.cpp

bbb75554SSiva Chandra//===-- Implementation of hypotf function ---------------------------------===//
bbb75554SSiva Chandra//
bbb75554SSiva Chandra// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
bbb75554SSiva Chandra// See https://llvm.org/LICENSE.txt for license information.
bbb75554SSiva Chandra// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
bbb75554SSiva Chandra//
bbb75554SSiva Chandra//===----------------------------------------------------------------------===//
bbb75554SSiva Chandra#include "src/math/hypotf.h"
*9da9127fSlntue#include "src/__support/FPUtil/FEnvImpl.h"
f1ec99f9STue Ly#include "src/__support/FPUtil/FPBits.h"
*9da9127fSlntue#include "src/__support/FPUtil/double_double.h"
*9da9127fSlntue#include "src/__support/FPUtil/multiply_add.h"
f1ec99f9STue Ly#include "src/__support/FPUtil/sqrt.h"
bbb75554SSiva Chandra#include "src/__support/common.h"
5ff3ff33SPetr Hosek#include "src/__support/macros/config.h"
*9da9127fSlntue#include "src/__support/macros/optimization.h"
bbb75554SSiva Chandra
5ff3ff33SPetr Hoseknamespace LIBC_NAMESPACE_DECL {
bbb75554SSiva Chandra
bbb75554SSiva ChandraLLVM_LIBC_FUNCTION(float, hypotf, (float x, float y)) {
f1ec99f9STue Ly  using DoubleBits = fputil::FPBits<double>;
f1ec99f9STue Ly  using FPBits = fputil::FPBits<float>;
f1ec99f9STue Ly
*9da9127fSlntue  FPBits x_abs = FPBits(x).abs();
*9da9127fSlntue  FPBits y_abs = FPBits(y).abs();
f1ec99f9STue Ly
*9da9127fSlntue  bool x_abs_larger = x_abs.uintval() >= y_abs.uintval();
f1ec99f9STue Ly
*9da9127fSlntue  FPBits a_bits = x_abs_larger ? x_abs : y_abs;
*9da9127fSlntue  FPBits b_bits = x_abs_larger ? y_abs : x_abs;
*9da9127fSlntue
*9da9127fSlntue  uint32_t a_u = a_bits.uintval();
*9da9127fSlntue  uint32_t b_u = b_bits.uintval();
*9da9127fSlntue
*9da9127fSlntue  // Note: replacing `a_u >= FPBits::EXP_MASK` with `a_bits.is_inf_or_nan()`
*9da9127fSlntue  // generates extra exponent bit masking instructions on x86-64.
*9da9127fSlntue  if (LIBC_UNLIKELY(a_u >= FPBits::EXP_MASK)) {
*9da9127fSlntue    // x or y is inf or nan
*9da9127fSlntue    if (a_bits.is_signaling_nan() || b_bits.is_signaling_nan()) {
*9da9127fSlntue      fputil::raise_except_if_required(FE_INVALID);
*9da9127fSlntue      return FPBits::quiet_nan().get_val();
*9da9127fSlntue    }
*9da9127fSlntue    if (a_bits.is_inf() || b_bits.is_inf())
*9da9127fSlntue      return FPBits::inf().get_val();
*9da9127fSlntue    return a_bits.get_val();
f1ec99f9STue Ly  }
f1ec99f9STue Ly
*9da9127fSlntue  if (LIBC_UNLIKELY(a_u - b_u >=
*9da9127fSlntue                    static_cast<uint32_t>((FPBits::FRACTION_LEN + 2)
*9da9127fSlntue                                          << FPBits::FRACTION_LEN)))
*9da9127fSlntue    return x_abs.get_val() + y_abs.get_val();
*9da9127fSlntue
*9da9127fSlntue  double ad = static_cast<double>(a_bits.get_val());
*9da9127fSlntue  double bd = static_cast<double>(b_bits.get_val());
f1ec99f9STue Ly
f1ec99f9STue Ly  // These squares are exact.
*9da9127fSlntue  double a_sq = ad * ad;
*9da9127fSlntue#ifdef LIBC_TARGET_CPU_HAS_FMA
*9da9127fSlntue  double sum_sq = fputil::multiply_add(bd, bd, a_sq);
*9da9127fSlntue#else
*9da9127fSlntue  double b_sq = bd * bd;
*9da9127fSlntue  double sum_sq = a_sq + b_sq;
*9da9127fSlntue#endif
f1ec99f9STue Ly
f1ec99f9STue Ly  // Take sqrt in double precision.
a2393435SOverMighty  DoubleBits result(fputil::sqrt<double>(sum_sq));
*9da9127fSlntue  uint64_t r_u = result.uintval();
f1ec99f9STue Ly
*9da9127fSlntue  // If any of the sticky bits of the result are non-zero, except the LSB, then
*9da9127fSlntue  // the rounded result is correct.
*9da9127fSlntue  if (LIBC_UNLIKELY(((r_u + 1) & 0x0000'0000'0FFF'FFFE) == 0)) {
*9da9127fSlntue    double r_d = result.get_val();
f1ec99f9STue Ly
*9da9127fSlntue    // Perform rounding correction.
*9da9127fSlntue#ifdef LIBC_TARGET_CPU_HAS_FMA
*9da9127fSlntue    double sum_sq_lo = fputil::multiply_add(bd, bd, a_sq - sum_sq);
*9da9127fSlntue    double err = sum_sq_lo - fputil::multiply_add(r_d, r_d, -sum_sq);
*9da9127fSlntue#else
*9da9127fSlntue    fputil::DoubleDouble r_sq = fputil::exact_mult(r_d, r_d);
*9da9127fSlntue    double sum_sq_lo = b_sq - (sum_sq - a_sq);
*9da9127fSlntue    double err = (sum_sq - r_sq.hi) + (sum_sq_lo - r_sq.lo);
*9da9127fSlntue#endif
*9da9127fSlntue
*9da9127fSlntue    if (err > 0) {
*9da9127fSlntue      r_u |= 1;
*9da9127fSlntue    } else if ((err < 0) && (r_u & 1) == 0) {
*9da9127fSlntue      r_u -= 1;
*9da9127fSlntue    } else if ((r_u & 0x0000'0000'1FFF'FFFF) == 0) {
*9da9127fSlntue      // The rounded result is exact.
*9da9127fSlntue      fputil::clear_except_if_required(FE_INEXACT);
f1ec99f9STue Ly    }
*9da9127fSlntue    return static_cast<float>(DoubleBits(r_u).get_val());
f1ec99f9STue Ly  }
f1ec99f9STue Ly
2856db0dSGuillaume Chatelet  return static_cast<float>(result.get_val());
bbb75554SSiva Chandra}
bbb75554SSiva Chandra
5ff3ff33SPetr Hosek} // namespace LIBC_NAMESPACE_DECL