Conversion/ArithToAMDGPU/ArithToAMDGPU.cpp

2ebd633fSKrzysztof Drewniak//===- ArithToAMDGPU.cpp - Arith to AMDGPU dialect conversion ---------===//
2ebd633fSKrzysztof Drewniak//
2ebd633fSKrzysztof Drewniak// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
2ebd633fSKrzysztof Drewniak// See https://llvm.org/LICENSE.txt for license information.
2ebd633fSKrzysztof Drewniak// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
2ebd633fSKrzysztof Drewniak//
2ebd633fSKrzysztof Drewniak//===----------------------------------------------------------------------===//
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniak#include "mlir/Conversion/ArithToAMDGPU/ArithToAMDGPU.h"
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniak#include "mlir/Dialect/AMDGPU/IR/AMDGPUDialect.h"
1387ba48SGiuseppe Rossini#include "mlir/Dialect/AMDGPU/Utils/Chipset.h"
2ebd633fSKrzysztof Drewniak#include "mlir/Dialect/Arith/IR/Arith.h"
750e90e4SKrzysztof Drewniak#include "mlir/Dialect/Arith/Utils/Utils.h"
1387ba48SGiuseppe Rossini#include "mlir/Dialect/LLVMIR/LLVMDialect.h"
1387ba48SGiuseppe Rossini#include "mlir/Dialect/LLVMIR/ROCDLDialect.h"
2ebd633fSKrzysztof Drewniak#include "mlir/Dialect/Vector/IR/VectorOps.h"
2ebd633fSKrzysztof Drewniak#include "mlir/IR/BuiltinTypes.h"
2ebd633fSKrzysztof Drewniak#include "mlir/IR/PatternMatch.h"
2ebd633fSKrzysztof Drewniak#include "mlir/IR/TypeUtilities.h"
2ebd633fSKrzysztof Drewniak#include "mlir/Pass/Pass.h"
2ebd633fSKrzysztof Drewniak#include "mlir/Transforms/GreedyPatternRewriteDriver.h"
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniaknamespace mlir {
2ebd633fSKrzysztof Drewniak#define GEN_PASS_DEF_ARITHTOAMDGPUCONVERSIONPASS
2ebd633fSKrzysztof Drewniak#include "mlir/Conversion/Passes.h.inc"
2ebd633fSKrzysztof Drewniak} // namespace mlir
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniakusing namespace mlir;
1387ba48SGiuseppe Rossiniusing namespace mlir::amdgpu;
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniaknamespace {
2ebd633fSKrzysztof Drewniakstruct ArithToAMDGPUConversionPass final
2ebd633fSKrzysztof Drewniak    : impl::ArithToAMDGPUConversionPassBase<ArithToAMDGPUConversionPass> {
2ebd633fSKrzysztof Drewniak  using impl::ArithToAMDGPUConversionPassBase<
2ebd633fSKrzysztof Drewniak      ArithToAMDGPUConversionPass>::ArithToAMDGPUConversionPassBase;
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniak  void runOnOperation() override;
2ebd633fSKrzysztof Drewniak};
2ebd633fSKrzysztof Drewniak
750e90e4SKrzysztof Drewniakstruct ExtFOnFloat8RewritePattern final : OpRewritePattern<arith::ExtFOp> {
750e90e4SKrzysztof Drewniak  using OpRewritePattern::OpRewritePattern;
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniak  LogicalResult match(arith::ExtFOp op) const override;
2ebd633fSKrzysztof Drewniak  void rewrite(arith::ExtFOp op, PatternRewriter &rewriter) const override;
2ebd633fSKrzysztof Drewniak};
2ebd633fSKrzysztof Drewniak
750e90e4SKrzysztof Drewniakstruct TruncFToFloat8RewritePattern final : OpRewritePattern<arith::TruncFOp> {
750e90e4SKrzysztof Drewniak  bool saturateFP8 = false;
1387ba48SGiuseppe Rossini  TruncFToFloat8RewritePattern(MLIRContext *ctx, bool saturateFP8,
1387ba48SGiuseppe Rossini                               Chipset chipset)
1387ba48SGiuseppe Rossini      : OpRewritePattern::OpRewritePattern(ctx), saturateFP8(saturateFP8),
1387ba48SGiuseppe Rossini        chipset(chipset) {}
1387ba48SGiuseppe Rossini  Chipset chipset;
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniak  LogicalResult match(arith::TruncFOp op) const override;
2ebd633fSKrzysztof Drewniak  void rewrite(arith::TruncFOp op, PatternRewriter &rewriter) const override;
2ebd633fSKrzysztof Drewniak};
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossinistruct TruncfToFloat16RewritePattern final
1387ba48SGiuseppe Rossini    : public OpRewritePattern<arith::TruncFOp> {
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  using OpRewritePattern<arith::TruncFOp>::OpRewritePattern;
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  LogicalResult match(arith::TruncFOp op) const override;
1387ba48SGiuseppe Rossini  void rewrite(arith::TruncFOp op, PatternRewriter &rewriter) const override;
1387ba48SGiuseppe Rossini};
1387ba48SGiuseppe Rossini
2ebd633fSKrzysztof Drewniak} // end namespace
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniakstatic Value castF32To(Type elementType, Value f32, Location loc,
2ebd633fSKrzysztof Drewniak                       PatternRewriter &rewriter) {
2ebd633fSKrzysztof Drewniak  if (elementType.isF32())
2ebd633fSKrzysztof Drewniak    return f32;
2ebd633fSKrzysztof Drewniak  if (elementType.getIntOrFloatBitWidth() < 32)
2ebd633fSKrzysztof Drewniak    return rewriter.create<arith::TruncFOp>(loc, elementType, f32);
2ebd633fSKrzysztof Drewniak  if (elementType.getIntOrFloatBitWidth() > 32)
2ebd633fSKrzysztof Drewniak    return rewriter.create<arith::ExtFOp>(loc, elementType, f32);
2ebd633fSKrzysztof Drewniak  llvm_unreachable("The only 32-bit float type is f32");
2ebd633fSKrzysztof Drewniak}
2ebd633fSKrzysztof Drewniak
750e90e4SKrzysztof DrewniakLogicalResult ExtFOnFloat8RewritePattern::match(arith::ExtFOp op) const {
2ebd633fSKrzysztof Drewniak  Type inType = op.getIn().getType();
a5757c5bSChristian Sigg  if (auto inVecType = dyn_cast<VectorType>(inType)) {
2ebd633fSKrzysztof Drewniak    if (inVecType.isScalable())
2ebd633fSKrzysztof Drewniak      return failure();
2ebd633fSKrzysztof Drewniak    inType = inVecType.getElementType();
2ebd633fSKrzysztof Drewniak  }
*7a77f14cSMatthias Springer  return success(isa<Float8E5M2FNUZType, Float8E4M3FNUZType>(inType));
2ebd633fSKrzysztof Drewniak}
2ebd633fSKrzysztof Drewniak
750e90e4SKrzysztof Drewniakvoid ExtFOnFloat8RewritePattern::rewrite(arith::ExtFOp op,
2ebd633fSKrzysztof Drewniak                                         PatternRewriter &rewriter) const {
2ebd633fSKrzysztof Drewniak  Location loc = op.getLoc();
2ebd633fSKrzysztof Drewniak  Value in = op.getIn();
2ebd633fSKrzysztof Drewniak  Type outElemType = getElementTypeOrSelf(op.getOut().getType());
f35318e8SRob Suderman  auto inType = dyn_cast<VectorType>(in.getType());
f35318e8SRob Suderman  if (!inType) {
2ebd633fSKrzysztof Drewniak    Value asFloat = rewriter.create<amdgpu::ExtPackedFp8Op>(
2ebd633fSKrzysztof Drewniak        loc, rewriter.getF32Type(), in, 0);
2ebd633fSKrzysztof Drewniak    Value result = castF32To(outElemType, asFloat, loc, rewriter);
2ebd633fSKrzysztof Drewniak    return rewriter.replaceOp(op, result);
2ebd633fSKrzysztof Drewniak  }
2ebd633fSKrzysztof Drewniak  int64_t numElements = inType.getNumElements();
65066c02SHugo Trachino  Value zero = rewriter.create<arith::ConstantOp>(
2ebd633fSKrzysztof Drewniak      loc, outElemType, rewriter.getFloatAttr(outElemType, 0.0));
2ebd633fSKrzysztof Drewniak  if (inType.getShape().empty()) {
750e90e4SKrzysztof Drewniak    Value scalarIn =
750e90e4SKrzysztof Drewniak        rewriter.create<vector::ExtractOp>(loc, in, ArrayRef<int64_t>{});
2ebd633fSKrzysztof Drewniak    // Recurse to send the 0-D vector case to the 1-D vector case
2ebd633fSKrzysztof Drewniak    Value scalarExt =
2ebd633fSKrzysztof Drewniak        rewriter.create<arith::ExtFOp>(loc, outElemType, scalarIn);
f35318e8SRob Suderman    Value result = rewriter.create<vector::InsertOp>(loc, scalarExt, zero,
750e90e4SKrzysztof Drewniak                                                     ArrayRef<int64_t>{});
2ebd633fSKrzysztof Drewniak    return rewriter.replaceOp(op, result);
2ebd633fSKrzysztof Drewniak  }
f35318e8SRob Suderman
f35318e8SRob Suderman  VectorType outType = cast<VectorType>(op.getOut().getType());
f35318e8SRob Suderman  VectorType flatTy = VectorType::get(SmallVector<int64_t>{numElements},
f35318e8SRob Suderman                                      outType.getElementType());
f35318e8SRob Suderman  Value result = rewriter.createOrFold<vector::SplatOp>(loc, flatTy, zero);
f35318e8SRob Suderman
f35318e8SRob Suderman  if (inType.getRank() > 1) {
f35318e8SRob Suderman    inType = VectorType::get(SmallVector<int64_t>{numElements},
f35318e8SRob Suderman                             inType.getElementType());
f35318e8SRob Suderman    in = rewriter.create<vector::ShapeCastOp>(loc, inType, in);
f35318e8SRob Suderman  }
f35318e8SRob Suderman
2ebd633fSKrzysztof Drewniak  for (int64_t i = 0; i < numElements; i += 4) {
2ebd633fSKrzysztof Drewniak    int64_t elemsThisOp = std::min(numElements, i + 4) - i;
2ebd633fSKrzysztof Drewniak    Value inSlice = rewriter.create<vector::ExtractStridedSliceOp>(
2ebd633fSKrzysztof Drewniak        loc, in, i, elemsThisOp, 1);
2ebd633fSKrzysztof Drewniak    for (int64_t j = 0; j < elemsThisOp; ++j) {
2ebd633fSKrzysztof Drewniak      Value asFloat = rewriter.create<amdgpu::ExtPackedFp8Op>(
2ebd633fSKrzysztof Drewniak          loc, rewriter.getF32Type(), inSlice, j);
2ebd633fSKrzysztof Drewniak      Value asType = castF32To(outElemType, asFloat, loc, rewriter);
750e90e4SKrzysztof Drewniak      result = rewriter.create<vector::InsertOp>(loc, asType, result, i + j);
2ebd633fSKrzysztof Drewniak    }
2ebd633fSKrzysztof Drewniak  }
f35318e8SRob Suderman
f35318e8SRob Suderman  if (inType.getRank() != outType.getRank()) {
f35318e8SRob Suderman    result = rewriter.create<vector::ShapeCastOp>(loc, outType, result);
f35318e8SRob Suderman  }
f35318e8SRob Suderman
2ebd633fSKrzysztof Drewniak  rewriter.replaceOp(op, result);
2ebd633fSKrzysztof Drewniak}
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniakstatic Value castToF32(Value value, Location loc, PatternRewriter &rewriter) {
2ebd633fSKrzysztof Drewniak  Type type = value.getType();
2ebd633fSKrzysztof Drewniak  if (type.isF32())
2ebd633fSKrzysztof Drewniak    return value;
2ebd633fSKrzysztof Drewniak  if (type.getIntOrFloatBitWidth() < 32)
2ebd633fSKrzysztof Drewniak    return rewriter.create<arith::ExtFOp>(loc, rewriter.getF32Type(), value);
2ebd633fSKrzysztof Drewniak  if (type.getIntOrFloatBitWidth() > 32)
2ebd633fSKrzysztof Drewniak    return rewriter.create<arith::TruncFOp>(loc, rewriter.getF32Type(), value);
2ebd633fSKrzysztof Drewniak  llvm_unreachable("The only 32-bit float type is f32");
2ebd633fSKrzysztof Drewniak}
2ebd633fSKrzysztof Drewniak
750e90e4SKrzysztof Drewniak// If `in` is a finite value, clamp it between the maximum and minimum values
750e90e4SKrzysztof Drewniak// of `outElemType` so that subsequent conversion instructions don't
750e90e4SKrzysztof Drewniak// overflow those out-of-range values to NaN. These semantics are commonly
750e90e4SKrzysztof Drewniak// used in machine-learning contexts where failure to clamp would lead to
750e90e4SKrzysztof Drewniak// excessive NaN production.
750e90e4SKrzysztof Drewniakstatic Value clampInput(PatternRewriter &rewriter, Location loc,
750e90e4SKrzysztof Drewniak                        Type outElemType, Value source) {
750e90e4SKrzysztof Drewniak  Type sourceType = source.getType();
750e90e4SKrzysztof Drewniak  const llvm::fltSemantics &sourceSem =
750e90e4SKrzysztof Drewniak      cast<FloatType>(getElementTypeOrSelf(sourceType)).getFloatSemantics();
750e90e4SKrzysztof Drewniak  const llvm::fltSemantics &targetSem =
750e90e4SKrzysztof Drewniak      cast<FloatType>(outElemType).getFloatSemantics();
750e90e4SKrzysztof Drewniak
750e90e4SKrzysztof Drewniak  APFloat min = APFloat::getLargest(targetSem, /*Negative=*/true);
750e90e4SKrzysztof Drewniak  APFloat max = APFloat::getLargest(targetSem, /*Negative=*/false);
750e90e4SKrzysztof Drewniak  bool ignoredLosesInfo = false;
750e90e4SKrzysztof Drewniak  // We can ignore conversion failures here because this conversion promotes
750e90e4SKrzysztof Drewniak  // from a smaller type to a larger one - ex. there can be no loss of precision
750e90e4SKrzysztof Drewniak  // when casting fp8 to f16.
750e90e4SKrzysztof Drewniak  (void)min.convert(sourceSem, APFloat::rmNearestTiesToEven, &ignoredLosesInfo);
750e90e4SKrzysztof Drewniak  (void)max.convert(sourceSem, APFloat::rmNearestTiesToEven, &ignoredLosesInfo);
750e90e4SKrzysztof Drewniak
750e90e4SKrzysztof Drewniak  Value minCst = createScalarOrSplatConstant(rewriter, loc, sourceType, min);
750e90e4SKrzysztof Drewniak  Value maxCst = createScalarOrSplatConstant(rewriter, loc, sourceType, max);
750e90e4SKrzysztof Drewniak
750e90e4SKrzysztof Drewniak  Value inf = createScalarOrSplatConstant(
750e90e4SKrzysztof Drewniak      rewriter, loc, sourceType,
750e90e4SKrzysztof Drewniak      APFloat::getInf(sourceSem, /*Negative=*/false));
750e90e4SKrzysztof Drewniak  Value negInf = createScalarOrSplatConstant(
750e90e4SKrzysztof Drewniak      rewriter, loc, sourceType, APFloat::getInf(sourceSem, /*Negative=*/true));
750e90e4SKrzysztof Drewniak  Value isInf = rewriter.createOrFold<arith::CmpFOp>(
750e90e4SKrzysztof Drewniak      loc, arith::CmpFPredicate::OEQ, source, inf);
750e90e4SKrzysztof Drewniak  Value isNegInf = rewriter.createOrFold<arith::CmpFOp>(
750e90e4SKrzysztof Drewniak      loc, arith::CmpFPredicate::OEQ, source, negInf);
750e90e4SKrzysztof Drewniak  Value isNan = rewriter.createOrFold<arith::CmpFOp>(
750e90e4SKrzysztof Drewniak      loc, arith::CmpFPredicate::UNO, source, source);
750e90e4SKrzysztof Drewniak  Value isNonFinite = rewriter.create<arith::OrIOp>(
750e90e4SKrzysztof Drewniak      loc, rewriter.create<arith::OrIOp>(loc, isInf, isNegInf), isNan);
750e90e4SKrzysztof Drewniak
750e90e4SKrzysztof Drewniak  Value clampedBelow = rewriter.create<arith::MaximumFOp>(loc, source, minCst);
750e90e4SKrzysztof Drewniak  Value clamped = rewriter.create<arith::MinimumFOp>(loc, clampedBelow, maxCst);
750e90e4SKrzysztof Drewniak  Value res =
750e90e4SKrzysztof Drewniak      rewriter.create<arith::SelectOp>(loc, isNonFinite, source, clamped);
750e90e4SKrzysztof Drewniak  return res;
750e90e4SKrzysztof Drewniak}
750e90e4SKrzysztof Drewniak
750e90e4SKrzysztof DrewniakLogicalResult TruncFToFloat8RewritePattern::match(arith::TruncFOp op) const {
8827ff92SVictor Perez  // Only supporting default rounding mode as of now.
8827ff92SVictor Perez  if (op.getRoundingmodeAttr())
8827ff92SVictor Perez    return failure();
2ebd633fSKrzysztof Drewniak  Type outType = op.getOut().getType();
a5757c5bSChristian Sigg  if (auto outVecType = dyn_cast<VectorType>(outType)) {
2ebd633fSKrzysztof Drewniak    if (outVecType.isScalable())
2ebd633fSKrzysztof Drewniak      return failure();
2ebd633fSKrzysztof Drewniak    outType = outVecType.getElementType();
2ebd633fSKrzysztof Drewniak  }
750e90e4SKrzysztof Drewniak  auto inType = dyn_cast<FloatType>(getElementTypeOrSelf(op.getIn().getType()));
750e90e4SKrzysztof Drewniak  if (inType && inType.getWidth() <= 8 && saturateFP8)
750e90e4SKrzysztof Drewniak    // Conversion between 8-bit floats is not supported with truncation enabled.
750e90e4SKrzysztof Drewniak    return failure();
*7a77f14cSMatthias Springer  return success(isa<Float8E5M2FNUZType, Float8E4M3FNUZType>(outType));
2ebd633fSKrzysztof Drewniak}
2ebd633fSKrzysztof Drewniak
750e90e4SKrzysztof Drewniakvoid TruncFToFloat8RewritePattern::rewrite(arith::TruncFOp op,
2ebd633fSKrzysztof Drewniak                                           PatternRewriter &rewriter) const {
2ebd633fSKrzysztof Drewniak  Location loc = op.getLoc();
2ebd633fSKrzysztof Drewniak  Value in = op.getIn();
2ebd633fSKrzysztof Drewniak  Type outElemType = getElementTypeOrSelf(op.getOut().getType());
750e90e4SKrzysztof Drewniak  if (saturateFP8)
750e90e4SKrzysztof Drewniak    in = clampInput(rewriter, loc, outElemType, in);
f35318e8SRob Suderman  auto inVectorTy = dyn_cast<VectorType>(in.getType());
2ebd633fSKrzysztof Drewniak  VectorType truncResType = VectorType::get(4, outElemType);
f35318e8SRob Suderman  if (!inVectorTy) {
2ebd633fSKrzysztof Drewniak    Value asFloat = castToF32(in, loc, rewriter);
2ebd633fSKrzysztof Drewniak    Value asF8s = rewriter.create<amdgpu::PackedTrunc2xFp8Op>(
2ebd633fSKrzysztof Drewniak        loc, truncResType, asFloat, /*sourceB=*/nullptr, 0,
2ebd633fSKrzysztof Drewniak        /*existing=*/nullptr);
750e90e4SKrzysztof Drewniak    Value result = rewriter.create<vector::ExtractOp>(loc, asF8s, 0);
2ebd633fSKrzysztof Drewniak    return rewriter.replaceOp(op, result);
2ebd633fSKrzysztof Drewniak  }
a5757c5bSChristian Sigg  VectorType outType = cast<VectorType>(op.getOut().getType());
2ebd633fSKrzysztof Drewniak  int64_t numElements = outType.getNumElements();
65066c02SHugo Trachino  Value zero = rewriter.create<arith::ConstantOp>(
2ebd633fSKrzysztof Drewniak      loc, outElemType, rewriter.getFloatAttr(outElemType, 0.0));
2ebd633fSKrzysztof Drewniak  if (outType.getShape().empty()) {
750e90e4SKrzysztof Drewniak    Value scalarIn =
750e90e4SKrzysztof Drewniak        rewriter.create<vector::ExtractOp>(loc, in, ArrayRef<int64_t>{});
2ebd633fSKrzysztof Drewniak    // Recurse to send the 0-D vector case to the 1-D vector case
2ebd633fSKrzysztof Drewniak    Value scalarTrunc =
2ebd633fSKrzysztof Drewniak        rewriter.create<arith::TruncFOp>(loc, outElemType, scalarIn);
f35318e8SRob Suderman    Value result = rewriter.create<vector::InsertOp>(loc, scalarTrunc, zero,
750e90e4SKrzysztof Drewniak                                                     ArrayRef<int64_t>{});
2ebd633fSKrzysztof Drewniak    return rewriter.replaceOp(op, result);
2ebd633fSKrzysztof Drewniak  }
2ebd633fSKrzysztof Drewniak
f35318e8SRob Suderman  VectorType flatTy = VectorType::get(SmallVector<int64_t>{numElements},
f35318e8SRob Suderman                                      outType.getElementType());
f35318e8SRob Suderman  Value result = rewriter.createOrFold<vector::SplatOp>(loc, flatTy, zero);
f35318e8SRob Suderman
f35318e8SRob Suderman  if (inVectorTy.getRank() > 1) {
f35318e8SRob Suderman    inVectorTy = VectorType::get(SmallVector<int64_t>{numElements},
f35318e8SRob Suderman                                 inVectorTy.getElementType());
f35318e8SRob Suderman    in = rewriter.create<vector::ShapeCastOp>(loc, inVectorTy, in);
f35318e8SRob Suderman  }
f35318e8SRob Suderman
2ebd633fSKrzysztof Drewniak  for (int64_t i = 0; i < numElements; i += 4) {
2ebd633fSKrzysztof Drewniak    int64_t elemsThisOp = std::min(numElements, i + 4) - i;
2ebd633fSKrzysztof Drewniak    Value thisResult = nullptr;
2ebd633fSKrzysztof Drewniak    for (int64_t j = 0; j < elemsThisOp; j += 2) {
750e90e4SKrzysztof Drewniak      Value elemA = rewriter.create<vector::ExtractOp>(loc, in, i + j);
2ebd633fSKrzysztof Drewniak      Value asFloatA = castToF32(elemA, loc, rewriter);
2ebd633fSKrzysztof Drewniak      Value asFloatB = nullptr;
2ebd633fSKrzysztof Drewniak      if (j + 1 < elemsThisOp) {
750e90e4SKrzysztof Drewniak        Value elemB = rewriter.create<vector::ExtractOp>(loc, in, i + j + 1);
2ebd633fSKrzysztof Drewniak        asFloatB = castToF32(elemB, loc, rewriter);
2ebd633fSKrzysztof Drewniak      }
2ebd633fSKrzysztof Drewniak      thisResult = rewriter.create<amdgpu::PackedTrunc2xFp8Op>(
2ebd633fSKrzysztof Drewniak          loc, truncResType, asFloatA, asFloatB, j / 2, thisResult);
2ebd633fSKrzysztof Drewniak    }
2ebd633fSKrzysztof Drewniak    if (elemsThisOp < 4)
2ebd633fSKrzysztof Drewniak      thisResult = rewriter.create<vector::ExtractStridedSliceOp>(
2ebd633fSKrzysztof Drewniak          loc, thisResult, 0, elemsThisOp, 1);
2ebd633fSKrzysztof Drewniak    result = rewriter.create<vector::InsertStridedSliceOp>(loc, thisResult,
2ebd633fSKrzysztof Drewniak                                                           result, i, 1);
2ebd633fSKrzysztof Drewniak  }
f35318e8SRob Suderman
f35318e8SRob Suderman  if (inVectorTy.getRank() != outType.getRank()) {
f35318e8SRob Suderman    result = rewriter.create<vector::ShapeCastOp>(loc, outType, result);
f35318e8SRob Suderman  }
f35318e8SRob Suderman
2ebd633fSKrzysztof Drewniak  rewriter.replaceOp(op, result);
2ebd633fSKrzysztof Drewniak}
2ebd633fSKrzysztof Drewniak
1387ba48SGiuseppe RossiniLogicalResult TruncfToFloat16RewritePattern::match(arith::TruncFOp op) const {
1387ba48SGiuseppe Rossini  Type outType = op.getOut().getType();
1387ba48SGiuseppe Rossini  Type inputType = getElementTypeOrSelf(op.getIn());
1387ba48SGiuseppe Rossini  if (auto outVecType = dyn_cast<VectorType>(outType)) {
1387ba48SGiuseppe Rossini    if (outVecType.isScalable())
1387ba48SGiuseppe Rossini      return failure();
1387ba48SGiuseppe Rossini    outType = outVecType.getElementType();
1387ba48SGiuseppe Rossini  }
1387ba48SGiuseppe Rossini  return success(outType.isF16() && inputType.isF32());
1387ba48SGiuseppe Rossini}
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossinivoid TruncfToFloat16RewritePattern::rewrite(arith::TruncFOp op,
1387ba48SGiuseppe Rossini                                            PatternRewriter &rewriter) const {
1387ba48SGiuseppe Rossini  Location loc = op.getLoc();
1387ba48SGiuseppe Rossini  Value in = op.getIn();
1387ba48SGiuseppe Rossini  Type outElemType = getElementTypeOrSelf(op.getOut().getType());
1387ba48SGiuseppe Rossini  VectorType truncResType = VectorType::get(2, outElemType);
1387ba48SGiuseppe Rossini  auto inVectorTy = dyn_cast<VectorType>(in.getType());
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  // Handle the case where input type is not a vector type
1387ba48SGiuseppe Rossini  if (!inVectorTy) {
1387ba48SGiuseppe Rossini    auto sourceB = rewriter.create<LLVM::PoisonOp>(loc, rewriter.getF32Type());
1387ba48SGiuseppe Rossini    Value asF16s =
1387ba48SGiuseppe Rossini        rewriter.create<ROCDL::CvtPkRtz>(loc, truncResType, in, sourceB);
8e663039SKunwar Grover    Value result = rewriter.create<vector::ExtractOp>(loc, asF16s, 0);
1387ba48SGiuseppe Rossini    return rewriter.replaceOp(op, result);
1387ba48SGiuseppe Rossini  }
1387ba48SGiuseppe Rossini  VectorType outType = cast<VectorType>(op.getOut().getType());
1387ba48SGiuseppe Rossini  int64_t numElements = outType.getNumElements();
1387ba48SGiuseppe Rossini  Value zero = rewriter.createOrFold<arith::ConstantOp>(
1387ba48SGiuseppe Rossini      loc, outElemType, rewriter.getFloatAttr(outElemType, 0.0));
1387ba48SGiuseppe Rossini  Value result = rewriter.createOrFold<vector::SplatOp>(loc, outType, zero);
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  if (inVectorTy.getRank() > 1) {
1387ba48SGiuseppe Rossini    inVectorTy = VectorType::get(SmallVector<int64_t>{numElements},
1387ba48SGiuseppe Rossini                                 inVectorTy.getElementType());
1387ba48SGiuseppe Rossini    in = rewriter.create<vector::ShapeCastOp>(loc, inVectorTy, in);
1387ba48SGiuseppe Rossini  }
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  // Handle the vector case. We also handle the (uncommon) case where the vector
1387ba48SGiuseppe Rossini  // length is odd
1387ba48SGiuseppe Rossini  for (int64_t i = 0; i < numElements; i += 2) {
1387ba48SGiuseppe Rossini    int64_t elemsThisOp = std::min(numElements, i + 2) - i;
1387ba48SGiuseppe Rossini    Value thisResult = nullptr;
8e663039SKunwar Grover    Value elemA = rewriter.create<vector::ExtractOp>(loc, in, i);
1387ba48SGiuseppe Rossini    Value elemB = rewriter.create<LLVM::PoisonOp>(loc, rewriter.getF32Type());
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini    if (elemsThisOp == 2) {
8e663039SKunwar Grover      elemB = rewriter.create<vector::ExtractOp>(loc, in, i + 1);
1387ba48SGiuseppe Rossini    }
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini    thisResult =
1387ba48SGiuseppe Rossini        rewriter.create<ROCDL::CvtPkRtz>(loc, truncResType, elemA, elemB);
1387ba48SGiuseppe Rossini    // Place back the truncated result into the possibly larger vector. If we
1387ba48SGiuseppe Rossini    // are operating on a size 2 vector, these operations should be folded away
1387ba48SGiuseppe Rossini    thisResult = rewriter.create<vector::ExtractStridedSliceOp>(
1387ba48SGiuseppe Rossini        loc, thisResult, 0, elemsThisOp, 1);
1387ba48SGiuseppe Rossini    result = rewriter.create<vector::InsertStridedSliceOp>(loc, thisResult,
1387ba48SGiuseppe Rossini                                                           result, i, 1);
1387ba48SGiuseppe Rossini  }
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  if (inVectorTy.getRank() != outType.getRank()) {
1387ba48SGiuseppe Rossini    result = rewriter.create<vector::ShapeCastOp>(loc, outType, result);
1387ba48SGiuseppe Rossini  }
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  rewriter.replaceOp(op, result);
1387ba48SGiuseppe Rossini}
1387ba48SGiuseppe Rossini
2ebd633fSKrzysztof Drewniakvoid mlir::arith::populateArithToAMDGPUConversionPatterns(
1387ba48SGiuseppe Rossini    RewritePatternSet &patterns, bool convertFP8Arithmetic,
1387ba48SGiuseppe Rossini    bool saturateFP8Truncf, bool allowPackedF16Rtz, Chipset chipset) {
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  if (convertFP8Arithmetic) {
750e90e4SKrzysztof Drewniak    patterns.add<ExtFOnFloat8RewritePattern>(patterns.getContext());
750e90e4SKrzysztof Drewniak    patterns.add<TruncFToFloat8RewritePattern>(patterns.getContext(),
1387ba48SGiuseppe Rossini                                               saturateFP8Truncf, chipset);
1387ba48SGiuseppe Rossini  }
1387ba48SGiuseppe Rossini  if (allowPackedF16Rtz)
1387ba48SGiuseppe Rossini    patterns.add<TruncfToFloat16RewritePattern>(patterns.getContext());
2ebd633fSKrzysztof Drewniak}
2ebd633fSKrzysztof Drewniak
2ebd633fSKrzysztof Drewniakvoid ArithToAMDGPUConversionPass::runOnOperation() {
2ebd633fSKrzysztof Drewniak  Operation *op = getOperation();
1387ba48SGiuseppe Rossini  MLIRContext *ctx = &getContext();
2ebd633fSKrzysztof Drewniak  RewritePatternSet patterns(op->getContext());
1387ba48SGiuseppe Rossini  FailureOr<amdgpu::Chipset> maybeChipset = amdgpu::Chipset::parse(chipset);
1387ba48SGiuseppe Rossini  if (failed(maybeChipset)) {
1387ba48SGiuseppe Rossini    emitError(UnknownLoc::get(ctx), "Invalid chipset name: " + chipset);
1387ba48SGiuseppe Rossini    return signalPassFailure();
1387ba48SGiuseppe Rossini  }
1387ba48SGiuseppe Rossini
1387ba48SGiuseppe Rossini  bool convertFP8Arithmetic =
763bc924SJakub Kuderski      maybeChipset->majorVersion == 9 && *maybeChipset >= Chipset(9, 4, 0);
1387ba48SGiuseppe Rossini  arith::populateArithToAMDGPUConversionPatterns(
1387ba48SGiuseppe Rossini      patterns, convertFP8Arithmetic, saturateFP8Truncf, allowPackedF16Rtz,
1387ba48SGiuseppe Rossini      *maybeChipset);
09dfc571SJacques Pienaar  if (failed(applyPatternsGreedily(op, std::move(patterns))))
2ebd633fSKrzysztof Drewniak    return signalPassFailure();
2ebd633fSKrzysztof Drewniak}