lib/ExecutionEngine/Float16bits.cpp

ea8ed5cbSbixia1//===--- Float16bits.cpp - supports 2-byte floats  ------------------------===//
ea8ed5cbSbixia1//
ea8ed5cbSbixia1// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
ea8ed5cbSbixia1// See https://llvm.org/LICENSE.txt for license information.
ea8ed5cbSbixia1// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
ea8ed5cbSbixia1//
ea8ed5cbSbixia1//===----------------------------------------------------------------------===//
ea8ed5cbSbixia1//
ea8ed5cbSbixia1// This file implements f16 and bf16 to support the compilation and execution
ea8ed5cbSbixia1// of programs using these types.
ea8ed5cbSbixia1//
ea8ed5cbSbixia1//===----------------------------------------------------------------------===//
ea8ed5cbSbixia1
ea8ed5cbSbixia1#include "mlir/ExecutionEngine/Float16bits.h"
0fca5c5fSwren romano
0fca5c5fSwren romano#ifdef MLIR_FLOAT16_DEFINE_FUNCTIONS // We are building this library
0fca5c5fSwren romano
b3127769SBenjamin Kramer#include <cmath>
f695554aSBenjamin Kramer#include <cstring>
ea8ed5cbSbixia1
ea8ed5cbSbixia1namespace {
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Union used to make the int/float aliasing explicit so we can access the raw
ea8ed5cbSbixia1// bits.
ea8ed5cbSbixia1union Float32Bits {
ea8ed5cbSbixia1  uint32_t u;
ea8ed5cbSbixia1  float f;
ea8ed5cbSbixia1};
ea8ed5cbSbixia1
ea8ed5cbSbixia1const uint32_t kF32MantiBits = 23;
ea8ed5cbSbixia1const uint32_t kF32HalfMantiBitDiff = 13;
ea8ed5cbSbixia1const uint32_t kF32HalfBitDiff = 16;
ea8ed5cbSbixia1const Float32Bits kF32Magic = {113 << kF32MantiBits};
ea8ed5cbSbixia1const uint32_t kF32HalfExpAdjust = (127 - 15) << kF32MantiBits;
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Constructs the 16 bit representation for a half precision value from a float
ea8ed5cbSbixia1// value. This implementation is adapted from Eigen.
ea8ed5cbSbixia1uint16_t float2half(float floatValue) {
ea8ed5cbSbixia1  const Float32Bits inf = {255 << kF32MantiBits};
ea8ed5cbSbixia1  const Float32Bits f16max = {(127 + 16) << kF32MantiBits};
ea8ed5cbSbixia1  const Float32Bits denormMagic = {((127 - 15) + (kF32MantiBits - 10) + 1)
ea8ed5cbSbixia1                                   << kF32MantiBits};
ea8ed5cbSbixia1  uint32_t signMask = 0x80000000u;
ea8ed5cbSbixia1  uint16_t halfValue = static_cast<uint16_t>(0x0u);
ea8ed5cbSbixia1  Float32Bits f;
ea8ed5cbSbixia1  f.f = floatValue;
ea8ed5cbSbixia1  uint32_t sign = f.u & signMask;
ea8ed5cbSbixia1  f.u ^= sign;
ea8ed5cbSbixia1
ea8ed5cbSbixia1  if (f.u >= f16max.u) {
ea8ed5cbSbixia1    const uint32_t halfQnan = 0x7e00;
ea8ed5cbSbixia1    const uint32_t halfInf = 0x7c00;
ea8ed5cbSbixia1    // Inf or NaN (all exponent bits set).
ea8ed5cbSbixia1    halfValue = (f.u > inf.u) ? halfQnan : halfInf; // NaN->qNaN and Inf->Inf
ea8ed5cbSbixia1  } else {
ea8ed5cbSbixia1    // (De)normalized number or zero.
ea8ed5cbSbixia1    if (f.u < kF32Magic.u) {
ea8ed5cbSbixia1      // The resulting FP16 is subnormal or zero.
ea8ed5cbSbixia1      //
ea8ed5cbSbixia1      // Use a magic value to align our 10 mantissa bits at the bottom of the
ea8ed5cbSbixia1      // float. As long as FP addition is round-to-nearest-even this works.
ea8ed5cbSbixia1      f.f += denormMagic.f;
ea8ed5cbSbixia1
ea8ed5cbSbixia1      halfValue = static_cast<uint16_t>(f.u - denormMagic.u);
ea8ed5cbSbixia1    } else {
ea8ed5cbSbixia1      uint32_t mantOdd =
ea8ed5cbSbixia1          (f.u >> kF32HalfMantiBitDiff) & 1; // Resulting mantissa is odd.
ea8ed5cbSbixia1
ea8ed5cbSbixia1      // Update exponent, rounding bias part 1. The following expressions are
ea8ed5cbSbixia1      // equivalent to `f.u += ((unsigned int)(15 - 127) << kF32MantiBits) +
ea8ed5cbSbixia1      // 0xfff`, but without arithmetic overflow.
ea8ed5cbSbixia1      f.u += 0xc8000fffU;
ea8ed5cbSbixia1      // Rounding bias part 2.
ea8ed5cbSbixia1      f.u += mantOdd;
ea8ed5cbSbixia1      halfValue = static_cast<uint16_t>(f.u >> kF32HalfMantiBitDiff);
ea8ed5cbSbixia1    }
ea8ed5cbSbixia1  }
ea8ed5cbSbixia1
ea8ed5cbSbixia1  halfValue |= static_cast<uint16_t>(sign >> kF32HalfBitDiff);
ea8ed5cbSbixia1  return halfValue;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Converts the 16 bit representation of a half precision value to a float
ea8ed5cbSbixia1// value. This implementation is adapted from Eigen.
ea8ed5cbSbixia1float half2float(uint16_t halfValue) {
ea8ed5cbSbixia1  const uint32_t shiftedExp =
ea8ed5cbSbixia1      0x7c00 << kF32HalfMantiBitDiff; // Exponent mask after shift.
ea8ed5cbSbixia1
ea8ed5cbSbixia1  // Initialize the float representation with the exponent/mantissa bits.
ea8ed5cbSbixia1  Float32Bits f = {
ea8ed5cbSbixia1      static_cast<uint32_t>((halfValue & 0x7fff) << kF32HalfMantiBitDiff)};
ea8ed5cbSbixia1  const uint32_t exp = shiftedExp & f.u;
ea8ed5cbSbixia1  f.u += kF32HalfExpAdjust; // Adjust the exponent
ea8ed5cbSbixia1
ea8ed5cbSbixia1  // Handle exponent special cases.
ea8ed5cbSbixia1  if (exp == shiftedExp) {
ea8ed5cbSbixia1    // Inf/NaN
ea8ed5cbSbixia1    f.u += kF32HalfExpAdjust;
ea8ed5cbSbixia1  } else if (exp == 0) {
ea8ed5cbSbixia1    // Zero/Denormal?
ea8ed5cbSbixia1    f.u += 1 << kF32MantiBits;
ea8ed5cbSbixia1    f.f -= kF32Magic.f;
ea8ed5cbSbixia1  }
ea8ed5cbSbixia1
ea8ed5cbSbixia1  f.u |= (halfValue & 0x8000) << kF32HalfBitDiff; // Sign bit.
ea8ed5cbSbixia1  return f.f;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1const uint32_t kF32BfMantiBitDiff = 16;
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Constructs the 16 bit representation for a bfloat value from a float value.
ea8ed5cbSbixia1// This implementation is adapted from Eigen.
ea8ed5cbSbixia1uint16_t float2bfloat(float floatValue) {
b3127769SBenjamin Kramer  if (std::isnan(floatValue))
b3127769SBenjamin Kramer    return std::signbit(floatValue) ? 0xFFC0 : 0x7FC0;
b3127769SBenjamin Kramer
ea8ed5cbSbixia1  Float32Bits floatBits;
ea8ed5cbSbixia1  floatBits.f = floatValue;
ea8ed5cbSbixia1  uint16_t bfloatBits;
ea8ed5cbSbixia1
ea8ed5cbSbixia1  // Least significant bit of resulting bfloat.
ea8ed5cbSbixia1  uint32_t lsb = (floatBits.u >> kF32BfMantiBitDiff) & 1;
be799722SMehdi Amini  uint32_t roundingBias = 0x7fff + lsb;
be799722SMehdi Amini  floatBits.u += roundingBias;
ea8ed5cbSbixia1  bfloatBits = static_cast<uint16_t>(floatBits.u >> kF32BfMantiBitDiff);
ea8ed5cbSbixia1  return bfloatBits;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Converts the 16 bit representation of a bfloat value to a float value. This
ea8ed5cbSbixia1// implementation is adapted from Eigen.
ea8ed5cbSbixia1float bfloat2float(uint16_t bfloatBits) {
ea8ed5cbSbixia1  Float32Bits floatBits;
ea8ed5cbSbixia1  floatBits.u = static_cast<uint32_t>(bfloatBits) << kF32BfMantiBitDiff;
ea8ed5cbSbixia1  return floatBits.f;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1} // namespace
ea8ed5cbSbixia1
ea8ed5cbSbixia1f16::f16(float f) : bits(float2half(f)) {}
ea8ed5cbSbixia1
ea8ed5cbSbixia1bf16::bf16(float f) : bits(float2bfloat(f)) {}
ea8ed5cbSbixia1
ea8ed5cbSbixia1std::ostream &operator<<(std::ostream &os, const f16 &f) {
ea8ed5cbSbixia1  os << half2float(f.bits);
ea8ed5cbSbixia1  return os;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1std::ostream &operator<<(std::ostream &os, const bf16 &d) {
ea8ed5cbSbixia1  os << bfloat2float(d.bits);
ea8ed5cbSbixia1  return os;
ea8ed5cbSbixia1}
3420cd7cSBenjamin Kramer
753dc0a0SYinying Libool operator==(const f16 &f1, const f16 &f2) { return f1.bits == f2.bits; }
753dc0a0SYinying Li
753dc0a0SYinying Libool operator==(const bf16 &f1, const bf16 &f2) { return f1.bits == f2.bits; }
753dc0a0SYinying Li
f695554aSBenjamin Kramer// Mark these symbols as weak so they don't conflict when compiler-rt also
f695554aSBenjamin Kramer// defines them.
f695554aSBenjamin Kramer#define ATTR_WEAK
745a4caaSBenjamin Kramer#ifdef __has_attribute
745a4caaSBenjamin Kramer#if __has_attribute(weak) && !defined(__MINGW32__) && !defined(__CYGWIN__) &&  \
745a4caaSBenjamin Kramer    !defined(_WIN32)
f695554aSBenjamin Kramer#undef ATTR_WEAK
f695554aSBenjamin Kramer#define ATTR_WEAK __attribute__((__weak__))
d5c29b23SBenjamin Kramer#endif
745a4caaSBenjamin Kramer#endif
f695554aSBenjamin Kramer
*9a3ece23SBenjamin Kramer#if defined(__x86_64__) || defined(_M_X64)
726719e9SBenjamin Kramer// On x86 bfloat16 is passed in SSE registers. Since both float and __bf16
f695554aSBenjamin Kramer// are passed in the same register we can use the wider type and careful casting
f695554aSBenjamin Kramer// to conform to x86_64 psABI. This only works with the assumption that we're
f695554aSBenjamin Kramer// dealing with little-endian values passed in wider registers.
726719e9SBenjamin Kramer// Ideally this would directly use __bf16, but that type isn't supported by all
726719e9SBenjamin Kramer// compilers.
f695554aSBenjamin Kramerusing BF16ABIType = float;
f695554aSBenjamin Kramer#else
f695554aSBenjamin Kramer// Default to uint16_t if we have nothing else.
f695554aSBenjamin Kramerusing BF16ABIType = uint16_t;
f695554aSBenjamin Kramer#endif
f695554aSBenjamin Kramer
f695554aSBenjamin Kramer// Provide a float->bfloat conversion routine in case the runtime doesn't have
f695554aSBenjamin Kramer// one.
f695554aSBenjamin Kramerextern "C" BF16ABIType ATTR_WEAK __truncsfbf2(float f) {
f695554aSBenjamin Kramer  uint16_t bf = float2bfloat(f);
f695554aSBenjamin Kramer  // The output can be a float type, bitcast it from uint16_t.
f695554aSBenjamin Kramer  BF16ABIType ret = 0;
f695554aSBenjamin Kramer  std::memcpy(&ret, &bf, sizeof(bf));
f695554aSBenjamin Kramer  return ret;
3420cd7cSBenjamin Kramer}
3420cd7cSBenjamin Kramer
3420cd7cSBenjamin Kramer// Provide a double->bfloat conversion routine in case the runtime doesn't have
3420cd7cSBenjamin Kramer// one.
f695554aSBenjamin Kramerextern "C" BF16ABIType ATTR_WEAK __truncdfbf2(double d) {
3420cd7cSBenjamin Kramer  // This does a double rounding step, but it's precise enough for our use
3420cd7cSBenjamin Kramer  // cases.
726719e9SBenjamin Kramer  return __truncsfbf2(static_cast<float>(d));
3420cd7cSBenjamin Kramer}
0fca5c5fSwren romano
657f60a0SAart Bik// Provide these to the CRunner with the local float16 knowledge.
7b4ea67fSMehdi Aminiextern "C" void printF16(uint16_t bits) {
657f60a0SAart Bik  f16 f;
657f60a0SAart Bik  std::memcpy(&f, &bits, sizeof(f16));
657f60a0SAart Bik  std::cout << f;
657f60a0SAart Bik}
7b4ea67fSMehdi Aminiextern "C" void printBF16(uint16_t bits) {
657f60a0SAart Bik  bf16 f;
657f60a0SAart Bik  std::memcpy(&f, &bits, sizeof(bf16));
657f60a0SAart Bik  std::cout << f;
657f60a0SAart Bik}
657f60a0SAart Bik
0fca5c5fSwren romano#endif // MLIR_FLOAT16_DEFINE_FUNCTIONS