SPIRV/Transforms/SPIRVWebGPUTransforms.cpp

c957fe0fSJakub Kuderski//===- SPIRVWebGPUTransforms.cpp - WebGPU-specific transforms -------------===//
c957fe0fSJakub Kuderski//
c957fe0fSJakub Kuderski// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
c957fe0fSJakub Kuderski// See https://llvm.org/LICENSE.txt for license information.
c957fe0fSJakub Kuderski// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
c957fe0fSJakub Kuderski//
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
c957fe0fSJakub Kuderski//
c957fe0fSJakub Kuderski// This file implements SPIR-V transforms used when targetting WebGPU.
c957fe0fSJakub Kuderski//
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
c957fe0fSJakub Kuderski
c957fe0fSJakub Kuderski#include "mlir/Dialect/SPIRV/Transforms/SPIRVWebGPUTransforms.h"
c957fe0fSJakub Kuderski#include "mlir/Dialect/SPIRV/IR/SPIRVOps.h"
c957fe0fSJakub Kuderski#include "mlir/Dialect/SPIRV/Transforms/Passes.h"
c957fe0fSJakub Kuderski#include "mlir/IR/BuiltinAttributes.h"
c957fe0fSJakub Kuderski#include "mlir/IR/Location.h"
1b822453SJakub Kuderski#include "mlir/IR/PatternMatch.h"
c957fe0fSJakub Kuderski#include "mlir/IR/TypeUtilities.h"
c957fe0fSJakub Kuderski#include "mlir/Transforms/GreedyPatternRewriteDriver.h"
47232beaSJakub Kuderski#include "llvm/ADT/ArrayRef.h"
47232beaSJakub Kuderski#include "llvm/ADT/STLExtras.h"
c957fe0fSJakub Kuderski#include "llvm/Support/FormatVariadic.h"
c957fe0fSJakub Kuderski
47232beaSJakub Kuderski#include <array>
47232beaSJakub Kuderski#include <cstdint>
47232beaSJakub Kuderski
c957fe0fSJakub Kuderskinamespace mlir {
c957fe0fSJakub Kuderskinamespace spirv {
c957fe0fSJakub Kuderski#define GEN_PASS_DEF_SPIRVWEBGPUPREPAREPASS
c957fe0fSJakub Kuderski#include "mlir/Dialect/SPIRV/Transforms/Passes.h.inc"
c957fe0fSJakub Kuderski} // namespace spirv
c957fe0fSJakub Kuderski} // namespace mlir
c957fe0fSJakub Kuderski
c957fe0fSJakub Kuderskinamespace mlir {
c957fe0fSJakub Kuderskinamespace spirv {
c957fe0fSJakub Kuderskinamespace {
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
c957fe0fSJakub Kuderski// Helpers
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
d61ec513SJakub Kuderskistatic Attribute getScalarOrSplatAttr(Type type, int64_t value) {
c957fe0fSJakub Kuderski  APInt sizedValue(getElementTypeOrSelf(type).getIntOrFloatBitWidth(), value);
5550c821STres Popp  if (auto intTy = dyn_cast<IntegerType>(type))
c957fe0fSJakub Kuderski    return IntegerAttr::get(intTy, sizedValue);
c957fe0fSJakub Kuderski
6089d612SRahul Kayaith  return SplatElementsAttr::get(cast<ShapedType>(type), sizedValue);
c957fe0fSJakub Kuderski}
c957fe0fSJakub Kuderski
d61ec513SJakub Kuderskistatic Value lowerExtendedMultiplication(Operation *mulOp,
d61ec513SJakub Kuderski                                         PatternRewriter &rewriter, Value lhs,
d61ec513SJakub Kuderski                                         Value rhs, bool signExtendArguments) {
1b822453SJakub Kuderski  Location loc = mulOp->getLoc();
c957fe0fSJakub Kuderski  Type argTy = lhs.getType();
47232beaSJakub Kuderski  // Emulate 64-bit multiplication by splitting each input element of type i32
47232beaSJakub Kuderski  // into 2 16-bit digits of type i32. This is so that the intermediate
47232beaSJakub Kuderski  // multiplications and additions do not overflow. We extract these 16-bit
47232beaSJakub Kuderski  // digits from i32 vector elements by masking (low digit) and shifting right
47232beaSJakub Kuderski  // (high digit).
c957fe0fSJakub Kuderski  //
47232beaSJakub Kuderski  // The multiplication algorithm used is the standard (long) multiplication.
47232beaSJakub Kuderski  // Multiplying two i32 integers produces 64 bits of result, i.e., 4 16-bit
1b822453SJakub Kuderski  // digits.
1b822453SJakub Kuderski  //   - With zero-extended arguments, we end up emitting only 4 multiplications
1b822453SJakub Kuderski  //     and 4 additions after constant folding.
1b822453SJakub Kuderski  //   - With sign-extended arguments, we end up emitting 8 multiplications and
1b822453SJakub Kuderski  //     and 12 additions after CSE.
c957fe0fSJakub Kuderski  Value cstLowMask = rewriter.create<ConstantOp>(
c957fe0fSJakub Kuderski      loc, lhs.getType(), getScalarOrSplatAttr(argTy, (1 << 16) - 1));
47232beaSJakub Kuderski  auto getLowDigit = [&rewriter, loc, cstLowMask](Value val) {
c957fe0fSJakub Kuderski    return rewriter.create<BitwiseAndOp>(loc, val, cstLowMask);
c957fe0fSJakub Kuderski  };
c957fe0fSJakub Kuderski
c957fe0fSJakub Kuderski  Value cst16 = rewriter.create<ConstantOp>(loc, lhs.getType(),
c957fe0fSJakub Kuderski                                            getScalarOrSplatAttr(argTy, 16));
47232beaSJakub Kuderski  auto getHighDigit = [&rewriter, loc, cst16](Value val) {
c957fe0fSJakub Kuderski    return rewriter.create<ShiftRightLogicalOp>(loc, val, cst16);
c957fe0fSJakub Kuderski  };
c957fe0fSJakub Kuderski
1b822453SJakub Kuderski  auto getSignDigit = [&rewriter, loc, cst16, &getHighDigit](Value val) {
1b822453SJakub Kuderski    // We only need to shift arithmetically by 15, but the extra
1b822453SJakub Kuderski    // sign-extension bit will be truncated by the logical shift, so this is
1b822453SJakub Kuderski    // fine. We do not have to introduce an extra constant since any
1b822453SJakub Kuderski    // value in [15, 32) would do.
1b822453SJakub Kuderski    return getHighDigit(
1b822453SJakub Kuderski        rewriter.create<ShiftRightArithmeticOp>(loc, val, cst16));
1b822453SJakub Kuderski  };
1b822453SJakub Kuderski
47232beaSJakub Kuderski  Value cst0 = rewriter.create<ConstantOp>(loc, lhs.getType(),
47232beaSJakub Kuderski                                           getScalarOrSplatAttr(argTy, 0));
c957fe0fSJakub Kuderski
47232beaSJakub Kuderski  Value lhsLow = getLowDigit(lhs);
47232beaSJakub Kuderski  Value lhsHigh = getHighDigit(lhs);
1b822453SJakub Kuderski  Value lhsExt = signExtendArguments ? getSignDigit(lhs) : cst0;
47232beaSJakub Kuderski  Value rhsLow = getLowDigit(rhs);
47232beaSJakub Kuderski  Value rhsHigh = getHighDigit(rhs);
1b822453SJakub Kuderski  Value rhsExt = signExtendArguments ? getSignDigit(rhs) : cst0;
47232beaSJakub Kuderski
1b822453SJakub Kuderski  std::array<Value, 4> lhsDigits = {lhsLow, lhsHigh, lhsExt, lhsExt};
1b822453SJakub Kuderski  std::array<Value, 4> rhsDigits = {rhsLow, rhsHigh, rhsExt, rhsExt};
47232beaSJakub Kuderski  std::array<Value, 4> resultDigits = {cst0, cst0, cst0, cst0};
47232beaSJakub Kuderski
47232beaSJakub Kuderski  for (auto [i, lhsDigit] : llvm::enumerate(lhsDigits)) {
47232beaSJakub Kuderski    for (auto [j, rhsDigit] : llvm::enumerate(rhsDigits)) {
1b822453SJakub Kuderski      if (i + j >= resultDigits.size())
1b822453SJakub Kuderski        continue;
1b822453SJakub Kuderski
1b822453SJakub Kuderski      if (lhsDigit == cst0 || rhsDigit == cst0)
1b822453SJakub Kuderski        continue;
1b822453SJakub Kuderski
47232beaSJakub Kuderski      Value &thisResDigit = resultDigits[i + j];
47232beaSJakub Kuderski      Value mul = rewriter.create<IMulOp>(loc, lhsDigit, rhsDigit);
47232beaSJakub Kuderski      Value current = rewriter.createOrFold<IAddOp>(loc, thisResDigit, mul);
47232beaSJakub Kuderski      thisResDigit = getLowDigit(current);
47232beaSJakub Kuderski
47232beaSJakub Kuderski      if (i + j + 1 != resultDigits.size()) {
47232beaSJakub Kuderski        Value &nextResDigit = resultDigits[i + j + 1];
47232beaSJakub Kuderski        Value carry = rewriter.createOrFold<IAddOp>(loc, nextResDigit,
47232beaSJakub Kuderski                                                    getHighDigit(current));
47232beaSJakub Kuderski        nextResDigit = carry;
47232beaSJakub Kuderski      }
47232beaSJakub Kuderski    }
47232beaSJakub Kuderski  }
47232beaSJakub Kuderski
47232beaSJakub Kuderski  auto combineDigits = [loc, cst16, &rewriter](Value low, Value high) {
47232beaSJakub Kuderski    Value highBits = rewriter.create<ShiftLeftLogicalOp>(loc, high, cst16);
47232beaSJakub Kuderski    return rewriter.create<BitwiseOrOp>(loc, low, highBits);
47232beaSJakub Kuderski  };
47232beaSJakub Kuderski  Value low = combineDigits(resultDigits[0], resultDigits[1]);
47232beaSJakub Kuderski  Value high = combineDigits(resultDigits[2], resultDigits[3]);
c957fe0fSJakub Kuderski
1b822453SJakub Kuderski  return rewriter.create<CompositeConstructOp>(
36117cc4Sserge-sans-paille      loc, mulOp->getResultTypes().front(), llvm::ArrayRef({low, high}));
1b822453SJakub Kuderski}
1b822453SJakub Kuderski
1b822453SJakub Kuderski//===----------------------------------------------------------------------===//
1b822453SJakub Kuderski// Rewrite Patterns
1b822453SJakub Kuderski//===----------------------------------------------------------------------===//
1b822453SJakub Kuderski
1b822453SJakub Kuderskitemplate <typename MulExtendedOp, bool SignExtendArguments>
1b822453SJakub Kuderskistruct ExpandMulExtendedPattern final : OpRewritePattern<MulExtendedOp> {
1b822453SJakub Kuderski  using OpRewritePattern<MulExtendedOp>::OpRewritePattern;
1b822453SJakub Kuderski
1b822453SJakub Kuderski  LogicalResult matchAndRewrite(MulExtendedOp op,
1b822453SJakub Kuderski                                PatternRewriter &rewriter) const override {
1b822453SJakub Kuderski    Location loc = op->getLoc();
1b822453SJakub Kuderski    Value lhs = op.getOperand1();
1b822453SJakub Kuderski    Value rhs = op.getOperand2();
1b822453SJakub Kuderski
1b822453SJakub Kuderski    // Currently, WGSL only supports 32-bit integer types. Any other integer
1b822453SJakub Kuderski    // types should already have been promoted/demoted to i32.
5550c821STres Popp    auto elemTy = cast<IntegerType>(getElementTypeOrSelf(lhs.getType()));
1b822453SJakub Kuderski    if (elemTy.getIntOrFloatBitWidth() != 32)
1b822453SJakub Kuderski      return rewriter.notifyMatchFailure(
1b822453SJakub Kuderski          loc,
1b822453SJakub Kuderski          llvm::formatv("Unexpected integer type for WebGPU: '{0}'", elemTy));
1b822453SJakub Kuderski
1b822453SJakub Kuderski    Value mul = lowerExtendedMultiplication(op, rewriter, lhs, rhs,
1b822453SJakub Kuderski                                            SignExtendArguments);
1b822453SJakub Kuderski    rewriter.replaceOp(op, mul);
c957fe0fSJakub Kuderski    return success();
c957fe0fSJakub Kuderski  }
c957fe0fSJakub Kuderski};
c957fe0fSJakub Kuderski
1b822453SJakub Kuderskiusing ExpandSMulExtendedPattern =
1b822453SJakub Kuderski    ExpandMulExtendedPattern<SMulExtendedOp, true>;
1b822453SJakub Kuderskiusing ExpandUMulExtendedPattern =
1b822453SJakub Kuderski    ExpandMulExtendedPattern<UMulExtendedOp, false>;
1b822453SJakub Kuderski
6ddc03d9SFinn Plummerstruct ExpandAddCarryPattern final : OpRewritePattern<IAddCarryOp> {
6ddc03d9SFinn Plummer  using OpRewritePattern<IAddCarryOp>::OpRewritePattern;
6ddc03d9SFinn Plummer
6ddc03d9SFinn Plummer  LogicalResult matchAndRewrite(IAddCarryOp op,
6ddc03d9SFinn Plummer                                PatternRewriter &rewriter) const override {
6ddc03d9SFinn Plummer    Location loc = op->getLoc();
6ddc03d9SFinn Plummer    Value lhs = op.getOperand1();
6ddc03d9SFinn Plummer    Value rhs = op.getOperand2();
6ddc03d9SFinn Plummer
6ddc03d9SFinn Plummer    // Currently, WGSL only supports 32-bit integer types. Any other integer
6ddc03d9SFinn Plummer    // types should already have been promoted/demoted to i32.
6ddc03d9SFinn Plummer    Type argTy = lhs.getType();
6ddc03d9SFinn Plummer    auto elemTy = cast<IntegerType>(getElementTypeOrSelf(argTy));
6ddc03d9SFinn Plummer    if (elemTy.getIntOrFloatBitWidth() != 32)
6ddc03d9SFinn Plummer      return rewriter.notifyMatchFailure(
6ddc03d9SFinn Plummer          loc,
6ddc03d9SFinn Plummer          llvm::formatv("Unexpected integer type for WebGPU: '{0}'", elemTy));
6ddc03d9SFinn Plummer
6ddc03d9SFinn Plummer    Value one =
6ddc03d9SFinn Plummer        rewriter.create<ConstantOp>(loc, argTy, getScalarOrSplatAttr(argTy, 1));
6ddc03d9SFinn Plummer    Value zero =
6ddc03d9SFinn Plummer        rewriter.create<ConstantOp>(loc, argTy, getScalarOrSplatAttr(argTy, 0));
6ddc03d9SFinn Plummer
6ddc03d9SFinn Plummer    // Calculate the carry by checking if the addition resulted in an overflow.
6ddc03d9SFinn Plummer    Value out = rewriter.create<IAddOp>(loc, lhs, rhs);
6ddc03d9SFinn Plummer    Value cmp = rewriter.create<ULessThanOp>(loc, out, lhs);
6ddc03d9SFinn Plummer    Value carry = rewriter.create<SelectOp>(loc, cmp, one, zero);
6ddc03d9SFinn Plummer
6ddc03d9SFinn Plummer    Value add = rewriter.create<CompositeConstructOp>(
6ddc03d9SFinn Plummer        loc, op->getResultTypes().front(), llvm::ArrayRef({out, carry}));
6ddc03d9SFinn Plummer
6ddc03d9SFinn Plummer    rewriter.replaceOp(op, add);
6ddc03d9SFinn Plummer    return success();
6ddc03d9SFinn Plummer  }
6ddc03d9SFinn Plummer};
6ddc03d9SFinn Plummer
d61ec513SJakub Kuderskistruct ExpandIsInfPattern final : OpRewritePattern<IsInfOp> {
d61ec513SJakub Kuderski  using OpRewritePattern::OpRewritePattern;
d61ec513SJakub Kuderski
d61ec513SJakub Kuderski  LogicalResult matchAndRewrite(IsInfOp op,
d61ec513SJakub Kuderski                                PatternRewriter &rewriter) const override {
d61ec513SJakub Kuderski    // We assume values to be finite and turn `IsInf` info `false`.
d61ec513SJakub Kuderski    rewriter.replaceOpWithNewOp<spirv::ConstantOp>(
d61ec513SJakub Kuderski        op, op.getType(), getScalarOrSplatAttr(op.getType(), 0));
d61ec513SJakub Kuderski    return success();
d61ec513SJakub Kuderski  }
d61ec513SJakub Kuderski};
d61ec513SJakub Kuderski
d61ec513SJakub Kuderskistruct ExpandIsNanPattern final : OpRewritePattern<IsNanOp> {
d61ec513SJakub Kuderski  using OpRewritePattern::OpRewritePattern;
d61ec513SJakub Kuderski
d61ec513SJakub Kuderski  LogicalResult matchAndRewrite(IsNanOp op,
d61ec513SJakub Kuderski                                PatternRewriter &rewriter) const override {
d61ec513SJakub Kuderski    // We assume values to be finite and turn `IsNan` info `false`.
d61ec513SJakub Kuderski    rewriter.replaceOpWithNewOp<spirv::ConstantOp>(
d61ec513SJakub Kuderski        op, op.getType(), getScalarOrSplatAttr(op.getType(), 0));
d61ec513SJakub Kuderski    return success();
d61ec513SJakub Kuderski  }
d61ec513SJakub Kuderski};
d61ec513SJakub Kuderski
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
c957fe0fSJakub Kuderski// Passes
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
d61ec513SJakub Kuderskistruct WebGPUPreparePass final
d61ec513SJakub Kuderski    : impl::SPIRVWebGPUPreparePassBase<WebGPUPreparePass> {
c957fe0fSJakub Kuderski  void runOnOperation() override {
c957fe0fSJakub Kuderski    RewritePatternSet patterns(&getContext());
c957fe0fSJakub Kuderski    populateSPIRVExpandExtendedMultiplicationPatterns(patterns);
d61ec513SJakub Kuderski    populateSPIRVExpandNonFiniteArithmeticPatterns(patterns);
c957fe0fSJakub Kuderski
*09dfc571SJacques Pienaar    if (failed(applyPatternsGreedily(getOperation(), std::move(patterns))))
c957fe0fSJakub Kuderski      signalPassFailure();
c957fe0fSJakub Kuderski  }
c957fe0fSJakub Kuderski};
c957fe0fSJakub Kuderski} // namespace
c957fe0fSJakub Kuderski
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
c957fe0fSJakub Kuderski// Public Interface
c957fe0fSJakub Kuderski//===----------------------------------------------------------------------===//
c957fe0fSJakub Kuderskivoid populateSPIRVExpandExtendedMultiplicationPatterns(
c957fe0fSJakub Kuderski    RewritePatternSet &patterns) {
c957fe0fSJakub Kuderski  // WGSL currently does not support extended multiplication ops, see:
c957fe0fSJakub Kuderski  // https://github.com/gpuweb/gpuweb/issues/1565.
d61ec513SJakub Kuderski  patterns.add<ExpandSMulExtendedPattern, ExpandUMulExtendedPattern,
d61ec513SJakub Kuderski               ExpandAddCarryPattern>(patterns.getContext());
c957fe0fSJakub Kuderski}
d61ec513SJakub Kuderski
d61ec513SJakub Kuderskivoid populateSPIRVExpandNonFiniteArithmeticPatterns(
d61ec513SJakub Kuderski    RewritePatternSet &patterns) {
d61ec513SJakub Kuderski  // WGSL currently does not support `isInf` and `isNan`, see:
d61ec513SJakub Kuderski  // https://github.com/gpuweb/gpuweb/pull/2311.
d61ec513SJakub Kuderski  patterns.add<ExpandIsInfPattern, ExpandIsNanPattern>(patterns.getContext());
d61ec513SJakub Kuderski}
d61ec513SJakub Kuderski
c957fe0fSJakub Kuderski} // namespace spirv
c957fe0fSJakub Kuderski} // namespace mlir