GPU/TransformOps/Utils.cpp

90ecfa2aSNicolas Vasilache//===- Utils.cpp - Utils for GPU transform ops ----------------------------===//
90ecfa2aSNicolas Vasilache//
90ecfa2aSNicolas Vasilache// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
90ecfa2aSNicolas Vasilache// See https://llvm.org/LICENSE.txt for license information.
90ecfa2aSNicolas Vasilache// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
90ecfa2aSNicolas Vasilache//
90ecfa2aSNicolas Vasilache//===----------------------------------------------------------------------===//
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/GPU/TransformOps/Utils.h"
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/Affine/IR/AffineOps.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/Arith/IR/Arith.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/Func/IR/FuncOps.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/GPU/IR/GPUDialect.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/GPU/TransformOps/GPUTransformOps.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/MemRef/IR/MemRef.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/SCF/IR/DeviceMappingInterface.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/SCF/IR/SCF.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/Transform/IR/TransformDialect.h"
5a9bdd85SOleksandr "Alex" Zinenko#include "mlir/Dialect/Transform/Interfaces/TransformInterfaces.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/Utils/IndexingUtils.h"
90ecfa2aSNicolas Vasilache#include "mlir/Dialect/Vector/IR/VectorOps.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/AffineExpr.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/Builders.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/BuiltinAttributes.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/IRMapping.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/MLIRContext.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/OpDefinition.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/Value.h"
90ecfa2aSNicolas Vasilache#include "mlir/IR/Visitors.h"
90ecfa2aSNicolas Vasilache#include "mlir/Support/LLVM.h"
90ecfa2aSNicolas Vasilache#include "llvm/ADT/STLExtras.h"
90ecfa2aSNicolas Vasilache#include "llvm/ADT/SmallVector.h"
90ecfa2aSNicolas Vasilache#include "llvm/ADT/TypeSwitch.h"
90ecfa2aSNicolas Vasilache#include "llvm/Support/Debug.h"
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilacheusing namespace mlir;
90ecfa2aSNicolas Vasilacheusing namespace mlir::gpu;
90ecfa2aSNicolas Vasilacheusing namespace mlir::transform;
90ecfa2aSNicolas Vasilacheusing namespace mlir::transform::gpu;
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache#define DEBUG_TYPE "gpu-transforms"
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache#define DBGS() (llvm::dbgs() << '[' << DEBUG_TYPE << "] ")
d8ed736cSMehdi Amini#define LDBG(X) LLVM_DEBUG(DBGS() << (X) << "\n")
90ecfa2aSNicolas Vasilache#define DBGS_ALIAS() (llvm::dbgs() << '[' << DEBUG_TYPE_ALIAS << "] ")
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache/// Return a flattened thread id for the workgroup with given sizes.
44e6318cSNicolas Vasilachetemplate <typename ThreadOrBlockIdOp>
44e6318cSNicolas Vasilachestatic Value buildLinearId(RewriterBase &rewriter, Location loc,
44e6318cSNicolas Vasilache                           ArrayRef<OpFoldResult> originalBasisOfr) {
90ecfa2aSNicolas Vasilache  LLVM_DEBUG(llvm::interleaveComma(
44e6318cSNicolas Vasilache                 originalBasisOfr,
44e6318cSNicolas Vasilache                 DBGS() << "----buildLinearId with originalBasisOfr:  ");
90ecfa2aSNicolas Vasilache             llvm::dbgs() << "\n");
44e6318cSNicolas Vasilache  assert(originalBasisOfr.size() == 3 && "expected 3 sizes");
44e6318cSNicolas Vasilache  IndexType indexType = rewriter.getIndexType();
9a2a6a72SMehdi Amini  AffineExpr tx, ty, tz, bdx, bdy;
90ecfa2aSNicolas Vasilache  bindDims(rewriter.getContext(), tx, ty, tz);
9a2a6a72SMehdi Amini  bindSymbols(rewriter.getContext(), bdx, bdy);
44e6318cSNicolas Vasilache  SmallVector<OpFoldResult> vals{
44e6318cSNicolas Vasilache      rewriter.create<ThreadOrBlockIdOp>(loc, indexType, Dimension::x)
44e6318cSNicolas Vasilache          .getResult(),
44e6318cSNicolas Vasilache      rewriter.create<ThreadOrBlockIdOp>(loc, indexType, Dimension::y)
44e6318cSNicolas Vasilache          .getResult(),
44e6318cSNicolas Vasilache      rewriter.create<ThreadOrBlockIdOp>(loc, indexType, Dimension::z)
44e6318cSNicolas Vasilache          .getResult(),
44e6318cSNicolas Vasilache      originalBasisOfr[0], originalBasisOfr[1]};
90ecfa2aSNicolas Vasilache  OpFoldResult ofr = affine::makeComposedFoldedAffineApply(
9a2a6a72SMehdi Amini      rewriter, loc, tx + ty * bdx + tz * bdx * bdy, vals);
90ecfa2aSNicolas Vasilache  return getValueOrCreateConstantIndexOp(rewriter, loc, ofr);
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
44e6318cSNicolas Vasilache/// Create a linear id builder that takes the `originalBasisOfr` and decompose
44e6318cSNicolas Vasilache/// it in the basis of `forallMappingSizes`. The linear id builder returns an
44e6318cSNicolas Vasilache/// n-D vector of ids for indexing and 1-D size + id for predicate generation.
44e6318cSNicolas Vasilachetemplate <typename ThreadOrBlockIdOp>
44e6318cSNicolas Vasilachestatic GpuIdBuilderFnType commonLinearIdBuilderFn(int64_t multiplicity = 1) {
44e6318cSNicolas Vasilache  auto res = [multiplicity](RewriterBase &rewriter, Location loc,
44e6318cSNicolas Vasilache                            ArrayRef<int64_t> forallMappingSizes,
44e6318cSNicolas Vasilache                            ArrayRef<int64_t> originalBasis) {
44e6318cSNicolas Vasilache    SmallVector<OpFoldResult> originalBasisOfr =
44e6318cSNicolas Vasilache        getAsIndexOpFoldResult(rewriter.getContext(), originalBasis);
44e6318cSNicolas Vasilache    OpFoldResult linearId =
44e6318cSNicolas Vasilache        buildLinearId<ThreadOrBlockIdOp>(rewriter, loc, originalBasisOfr);
44e6318cSNicolas Vasilache    // Sizes in [0 .. n] -> [n .. 0] order to properly compute strides in
44e6318cSNicolas Vasilache    // "row-major" order.
44e6318cSNicolas Vasilache    SmallVector<int64_t> reverseBasisSizes(llvm::reverse(forallMappingSizes));
44e6318cSNicolas Vasilache    SmallVector<int64_t> strides = computeStrides(reverseBasisSizes);
44e6318cSNicolas Vasilache    AffineExpr d0 = getAffineDimExpr(0, rewriter.getContext());
44e6318cSNicolas Vasilache    OpFoldResult scaledLinearId = affine::makeComposedFoldedAffineApply(
44e6318cSNicolas Vasilache        rewriter, loc, d0.floorDiv(multiplicity), {linearId});
44e6318cSNicolas Vasilache    SmallVector<AffineExpr> delinearizingExprs = delinearize(d0, strides);
44e6318cSNicolas Vasilache    SmallVector<Value> ids;
44e6318cSNicolas Vasilache    // Reverse back to be in [0 .. n] order.
44e6318cSNicolas Vasilache    for (AffineExpr e : llvm::reverse(delinearizingExprs)) {
44e6318cSNicolas Vasilache      ids.push_back(
44e6318cSNicolas Vasilache          affine::makeComposedAffineApply(rewriter, loc, e, {scaledLinearId}));
44e6318cSNicolas Vasilache    }
44e6318cSNicolas Vasilache
44e6318cSNicolas Vasilache    // clang-format off
44e6318cSNicolas Vasilache      LLVM_DEBUG(llvm::interleaveComma(reverseBasisSizes,
44e6318cSNicolas Vasilache                                       DBGS() << "--delinearization basis: ");
44e6318cSNicolas Vasilache                 llvm::dbgs() << "\n";
44e6318cSNicolas Vasilache                 llvm::interleaveComma(strides,
44e6318cSNicolas Vasilache                                       DBGS() << "--delinearization strides: ");
44e6318cSNicolas Vasilache                 llvm::dbgs() << "\n";
44e6318cSNicolas Vasilache                 llvm::interleaveComma(delinearizingExprs,
44e6318cSNicolas Vasilache                                       DBGS() << "--delinearization exprs: ");
44e6318cSNicolas Vasilache                 llvm::dbgs() << "\n";
44e6318cSNicolas Vasilache                 llvm::interleaveComma(ids, DBGS() << "--ids: ");
44e6318cSNicolas Vasilache                 llvm::dbgs() << "\n";);
44e6318cSNicolas Vasilache    // clang-format on
44e6318cSNicolas Vasilache
44e6318cSNicolas Vasilache    // Return n-D ids for indexing and 1-D size + id for predicate generation.
44e6318cSNicolas Vasilache      return IdBuilderResult{
44e6318cSNicolas Vasilache          /*mappingIdOps=*/ids,
44e6318cSNicolas Vasilache          /*availableMappingSizes=*/
44e6318cSNicolas Vasilache          SmallVector<int64_t>{computeProduct(originalBasis)},
44e6318cSNicolas Vasilache          // `forallMappingSizes` iterate in the scaled basis, they need to be
44e6318cSNicolas Vasilache          // scaled back into the original basis to provide tight
44e6318cSNicolas Vasilache          // activeMappingSizes quantities for predication.
44e6318cSNicolas Vasilache          /*activeMappingSizes=*/
*129f1001SKazu Hirata          SmallVector<int64_t>{computeProduct(forallMappingSizes) *
*129f1001SKazu Hirata                               multiplicity},
*129f1001SKazu Hirata          /*activeIdOps=*/SmallVector<Value>{cast<Value>(linearId)}};
44e6318cSNicolas Vasilache  };
44e6318cSNicolas Vasilache
44e6318cSNicolas Vasilache  return res;
44e6318cSNicolas Vasilache}
44e6318cSNicolas Vasilache
44e6318cSNicolas Vasilache/// Create a simple 3-D id builder that takes the `originalBasisOfr`
44e6318cSNicolas Vasilache/// The 3-D id builder returns a 3-D vector of ids for indexing and 3-D sizes
44e6318cSNicolas Vasilache/// + ids for predicate generation.
44e6318cSNicolas Vasilachetemplate <typename ThreadOrBlockIdOp>
44e6318cSNicolas Vasilachestatic GpuIdBuilderFnType common3DIdBuilderFn(int64_t multiplicity = 1) {
44e6318cSNicolas Vasilache  auto res = [multiplicity](RewriterBase &rewriter, Location loc,
44e6318cSNicolas Vasilache                            ArrayRef<int64_t> forallMappingSizes,
44e6318cSNicolas Vasilache                            ArrayRef<int64_t> originalBasis) {
44e6318cSNicolas Vasilache    IndexType indexType = rewriter.getIndexType();
44e6318cSNicolas Vasilache    SmallVector<Value> ids{
44e6318cSNicolas Vasilache        rewriter.create<ThreadOrBlockIdOp>(loc, indexType, Dimension::x),
44e6318cSNicolas Vasilache        rewriter.create<ThreadOrBlockIdOp>(loc, indexType, Dimension::y),
44e6318cSNicolas Vasilache        rewriter.create<ThreadOrBlockIdOp>(loc, indexType, Dimension::z)};
44e6318cSNicolas Vasilache    // In the 3-D mapping case, scale the first dimension by the multiplicity.
44e6318cSNicolas Vasilache    SmallVector<Value> scaledIds = ids;
44e6318cSNicolas Vasilache    AffineExpr d0 = getAffineDimExpr(0, rewriter.getContext());
*129f1001SKazu Hirata    scaledIds[0] = cast<Value>(affine::makeComposedFoldedAffineApply(
*129f1001SKazu Hirata        rewriter, loc, d0.floorDiv(multiplicity), {scaledIds[0]}));
44e6318cSNicolas Vasilache    // In the 3-D mapping case, unscale the first dimension by the multiplicity.
5262865aSKazu Hirata    SmallVector<int64_t> forallMappingSizeInOriginalBasis(forallMappingSizes);
44e6318cSNicolas Vasilache    forallMappingSizeInOriginalBasis[0] *= multiplicity;
44e6318cSNicolas Vasilache    return IdBuilderResult{
44e6318cSNicolas Vasilache        /*mappingIdOps=*/scaledIds,
44e6318cSNicolas Vasilache        /*availableMappingSizes=*/SmallVector<int64_t>{originalBasis},
44e6318cSNicolas Vasilache        // `forallMappingSizes` iterate in the scaled basis, they need to be
44e6318cSNicolas Vasilache        // scaled back into the original basis to provide tight
44e6318cSNicolas Vasilache        // activeMappingSizes quantities for predication.
44e6318cSNicolas Vasilache        /*activeMappingSizes=*/
44e6318cSNicolas Vasilache        SmallVector<int64_t>{forallMappingSizeInOriginalBasis},
44e6318cSNicolas Vasilache        /*activeIdOps=*/ids};
44e6318cSNicolas Vasilache  };
44e6318cSNicolas Vasilache  return res;
44e6318cSNicolas Vasilache}
44e6318cSNicolas Vasilache
90ecfa2aSNicolas Vasilachenamespace mlir {
90ecfa2aSNicolas Vasilachenamespace transform {
90ecfa2aSNicolas Vasilachenamespace gpu {
90ecfa2aSNicolas Vasilache
44e6318cSNicolas VasilacheGpuIdBuilder::GpuIdBuilder(MLIRContext *ctx, bool useLinearMapping,
74cf9bcfSMehdi Amini                           const MappingIdBuilderFnType &fn)
44e6318cSNicolas Vasilache    : mappingAttributes(), idBuilder() {
44e6318cSNicolas Vasilache  if (useLinearMapping) {
44e6318cSNicolas Vasilache    for (uint64_t d = static_cast<uint64_t>(MappingId::LinearDim0),
44e6318cSNicolas Vasilache                  e = getMaxEnumValForMappingId();
44e6318cSNicolas Vasilache         d <= e; ++d)
44e6318cSNicolas Vasilache      mappingAttributes.push_back(fn(ctx, symbolizeMappingId(d).value()));
44e6318cSNicolas Vasilache  } else {
44e6318cSNicolas Vasilache    for (uint64_t d = static_cast<uint64_t>(MappingId::DimX),
44e6318cSNicolas Vasilache                  e = static_cast<uint64_t>(MappingId::DimZ);
44e6318cSNicolas Vasilache         d <= e; ++d)
44e6318cSNicolas Vasilache      mappingAttributes.push_back(fn(ctx, symbolizeMappingId(d).value()));
44e6318cSNicolas Vasilache  }
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
44e6318cSNicolas VasilacheGpuBlockIdBuilder::GpuBlockIdBuilder(MLIRContext *ctx, bool useLinearMapping)
44e6318cSNicolas Vasilache    : GpuIdBuilder(ctx, useLinearMapping, [](MLIRContext *ctx, MappingId id) {
44e6318cSNicolas Vasilache        return GPUBlockMappingAttr::get(ctx, id);
44e6318cSNicolas Vasilache      }) {
44e6318cSNicolas Vasilache  idBuilder = useLinearMapping
44e6318cSNicolas Vasilache                  ? commonLinearIdBuilderFn<BlockIdOp>(/*multiplicity=*/1)
44e6318cSNicolas Vasilache                  : common3DIdBuilderFn<BlockIdOp>(/*multiplicity=*/1);
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
44e6318cSNicolas VasilacheGpuWarpgroupIdBuilder::GpuWarpgroupIdBuilder(MLIRContext *ctx, int64_t warpSize,
44e6318cSNicolas Vasilache                                             bool useLinearMapping)
44e6318cSNicolas Vasilache    : GpuIdBuilder(ctx, useLinearMapping,
44e6318cSNicolas Vasilache                   [](MLIRContext *ctx, MappingId id) {
44e6318cSNicolas Vasilache                     return GPUWarpgroupMappingAttr::get(ctx, id);
44e6318cSNicolas Vasilache                   }),
44e6318cSNicolas Vasilache      warpSize(warpSize) {
44e6318cSNicolas Vasilache  idBuilder = useLinearMapping
44e6318cSNicolas Vasilache                  ? commonLinearIdBuilderFn<ThreadIdOp>(
44e6318cSNicolas Vasilache                        /*multiplicity=*/kNumWarpsPerGroup * warpSize)
44e6318cSNicolas Vasilache                  : common3DIdBuilderFn<ThreadIdOp>(
44e6318cSNicolas Vasilache                        /*multiplicity=*/kNumWarpsPerGroup * warpSize);
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
44e6318cSNicolas VasilacheGpuWarpIdBuilder::GpuWarpIdBuilder(MLIRContext *ctx, int64_t warpSize,
44e6318cSNicolas Vasilache                                   bool useLinearMapping)
44e6318cSNicolas Vasilache    : GpuIdBuilder(ctx, useLinearMapping,
44e6318cSNicolas Vasilache                   [](MLIRContext *ctx, MappingId id) {
44e6318cSNicolas Vasilache                     return GPUWarpMappingAttr::get(ctx, id);
44e6318cSNicolas Vasilache                   }),
44e6318cSNicolas Vasilache      warpSize(warpSize) {
44e6318cSNicolas Vasilache  idBuilder =
44e6318cSNicolas Vasilache      useLinearMapping
44e6318cSNicolas Vasilache          ? commonLinearIdBuilderFn<ThreadIdOp>(/*multiplicity=*/warpSize)
44e6318cSNicolas Vasilache          : common3DIdBuilderFn<ThreadIdOp>(/*multiplicity=*/warpSize);
44e6318cSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
44e6318cSNicolas VasilacheGpuThreadIdBuilder::GpuThreadIdBuilder(MLIRContext *ctx, bool useLinearMapping)
44e6318cSNicolas Vasilache    : GpuIdBuilder(ctx, useLinearMapping, [](MLIRContext *ctx, MappingId id) {
44e6318cSNicolas Vasilache        return GPUThreadMappingAttr::get(ctx, id);
44e6318cSNicolas Vasilache      }) {
44e6318cSNicolas Vasilache  idBuilder = useLinearMapping
44e6318cSNicolas Vasilache                  ? commonLinearIdBuilderFn<ThreadIdOp>(/*multiplicity=*/1)
44e6318cSNicolas Vasilache                  : common3DIdBuilderFn<ThreadIdOp>(/*multiplicity=*/1);
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas VasilacheDiagnosedSilenceableFailure checkGpuLimits(TransformOpInterface transformOp,
90ecfa2aSNicolas Vasilache                                           std::optional<int64_t> gridDimX,
90ecfa2aSNicolas Vasilache                                           std::optional<int64_t> gridDimY,
90ecfa2aSNicolas Vasilache                                           std::optional<int64_t> gridDimZ,
90ecfa2aSNicolas Vasilache                                           std::optional<int64_t> blockDimX,
90ecfa2aSNicolas Vasilache                                           std::optional<int64_t> blockDimY,
90ecfa2aSNicolas Vasilache                                           std::optional<int64_t> blockDimZ) {
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache  // TODO: pass a configuration object to set the limits properly.
90ecfa2aSNicolas Vasilache  static constexpr int maxTotalBlockdim = 1024;
90ecfa2aSNicolas Vasilache  static constexpr int maxBlockdimx = 1024;
90ecfa2aSNicolas Vasilache  static constexpr int maxBlockdimy = 1024;
90ecfa2aSNicolas Vasilache  static constexpr int maxBlockdimz = 64;
90ecfa2aSNicolas Vasilache  static constexpr int maxTotalGriddim = 2147483647;
90ecfa2aSNicolas Vasilache  static constexpr int maxGriddimx = 2147483647;
90ecfa2aSNicolas Vasilache  static constexpr int maxGriddimy = 65535;
90ecfa2aSNicolas Vasilache  static constexpr int maxGriddimz = 65535;
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache  if ((blockDimX.value_or(1) * blockDimY.value_or(1) * blockDimZ.value_or(1)) >
90ecfa2aSNicolas Vasilache          maxTotalBlockdim ||
90ecfa2aSNicolas Vasilache      (gridDimX.value_or(1) * gridDimY.value_or(1) * gridDimZ.value_or(1)) >
90ecfa2aSNicolas Vasilache          maxTotalGriddim ||
90ecfa2aSNicolas Vasilache      blockDimX.value_or(1) > maxBlockdimx ||
90ecfa2aSNicolas Vasilache      blockDimY.value_or(1) > maxBlockdimy ||
90ecfa2aSNicolas Vasilache      blockDimZ.value_or(1) > maxBlockdimz ||
90ecfa2aSNicolas Vasilache      gridDimY.value_or(1) > maxGriddimy ||
90ecfa2aSNicolas Vasilache      gridDimZ.value_or(1) > maxGriddimz ||
90ecfa2aSNicolas Vasilache      gridDimX.value_or(1) > maxGriddimx) {
90ecfa2aSNicolas Vasilache    return transformOp.emitSilenceableError()
90ecfa2aSNicolas Vasilache           << "Trying to launch a GPU kernel with grid_dims = ("
90ecfa2aSNicolas Vasilache           << gridDimX.value_or(1) << ", " << gridDimY.value_or(1) << ", "
90ecfa2aSNicolas Vasilache           << gridDimZ.value_or(1) << ") block_dims = ("
90ecfa2aSNicolas Vasilache           << blockDimX.value_or(1) << ", " << blockDimY.value_or(1) << ", "
90ecfa2aSNicolas Vasilache           << blockDimZ.value_or(1) << "). It is larger than the limits.";
90ecfa2aSNicolas Vasilache  }
90ecfa2aSNicolas Vasilache  return DiagnosedSilenceableFailure::success();
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas VasilacheDiagnosedSilenceableFailure createGpuLaunch(
90ecfa2aSNicolas Vasilache    RewriterBase &rewriter, Location loc, TransformOpInterface transformOp,
90ecfa2aSNicolas Vasilache    LaunchOp &launchOp, std::optional<int64_t> gridDimX,
90ecfa2aSNicolas Vasilache    std::optional<int64_t> gridDimY, std::optional<int64_t> gridDimZ,
90ecfa2aSNicolas Vasilache    std::optional<int64_t> blockDimX, std::optional<int64_t> blockDimY,
90ecfa2aSNicolas Vasilache    std::optional<int64_t> blockDimZ) {
90ecfa2aSNicolas Vasilache  DiagnosedSilenceableFailure diag =
90ecfa2aSNicolas Vasilache      checkGpuLimits(transformOp, gridDimX, gridDimY, gridDimZ, blockDimX,
90ecfa2aSNicolas Vasilache                     blockDimY, blockDimZ);
90ecfa2aSNicolas Vasilache  if (!diag.succeeded())
90ecfa2aSNicolas Vasilache    return diag;
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache  auto createConst = [&](int dim) {
90ecfa2aSNicolas Vasilache    return rewriter.create<arith::ConstantIndexOp>(loc, dim);
90ecfa2aSNicolas Vasilache  };
90ecfa2aSNicolas Vasilache  OpBuilder::InsertionGuard guard(rewriter);
90ecfa2aSNicolas Vasilache  Value one = createConst(1);
90ecfa2aSNicolas Vasilache  Value gridSizeX = gridDimX.has_value() ? createConst(gridDimX.value()) : one;
90ecfa2aSNicolas Vasilache  Value gridSizeY = gridDimY.has_value() ? createConst(gridDimY.value()) : one;
90ecfa2aSNicolas Vasilache  Value gridSizeZ = gridDimZ.has_value() ? createConst(gridDimZ.value()) : one;
90ecfa2aSNicolas Vasilache  Value blkSizeX = blockDimX.has_value() ? createConst(blockDimX.value()) : one;
90ecfa2aSNicolas Vasilache  Value blkSizeY = blockDimY.has_value() ? createConst(blockDimY.value()) : one;
90ecfa2aSNicolas Vasilache  Value blkSizeZ = blockDimZ.has_value() ? createConst(blockDimZ.value()) : one;
90ecfa2aSNicolas Vasilache  launchOp = rewriter.create<LaunchOp>(loc, gridSizeX, gridSizeY, gridSizeZ,
90ecfa2aSNicolas Vasilache                                       blkSizeX, blkSizeY, blkSizeZ);
90ecfa2aSNicolas Vasilache  rewriter.setInsertionPointToEnd(&launchOp.getBody().front());
90ecfa2aSNicolas Vasilache  rewriter.create<TerminatorOp>(loc);
90ecfa2aSNicolas Vasilache  return DiagnosedSilenceableFailure::success();
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache/// Alter kernel configuration of the given kernel.
90ecfa2aSNicolas VasilacheDiagnosedSilenceableFailure alterGpuLaunch(
90ecfa2aSNicolas Vasilache    RewriterBase &rewriter, LaunchOp gpuLaunch,
90ecfa2aSNicolas Vasilache    TransformOpInterface transformOp, std::optional<int64_t> gridDimX,
90ecfa2aSNicolas Vasilache    std::optional<int64_t> gridDimY, std::optional<int64_t> gridDimZ,
90ecfa2aSNicolas Vasilache    std::optional<int64_t> blockDimX, std::optional<int64_t> blockDimY,
90ecfa2aSNicolas Vasilache    std::optional<int64_t> blockDimZ) {
90ecfa2aSNicolas Vasilache  DiagnosedSilenceableFailure diag =
90ecfa2aSNicolas Vasilache      checkGpuLimits(transformOp, gridDimX, gridDimY, gridDimZ, blockDimX,
90ecfa2aSNicolas Vasilache                     blockDimY, blockDimZ);
90ecfa2aSNicolas Vasilache  if (!diag.succeeded())
90ecfa2aSNicolas Vasilache    return diag;
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache  KernelDim3 currentBlockdim = gpuLaunch.getBlockSizeOperandValues();
90ecfa2aSNicolas Vasilache  OpBuilder::InsertionGuard guard(rewriter);
90ecfa2aSNicolas Vasilache  rewriter.setInsertionPointAfterValue(currentBlockdim.x);
90ecfa2aSNicolas Vasilache  auto createConstValue = [&](int dim) {
90ecfa2aSNicolas Vasilache    return rewriter.create<arith::ConstantIndexOp>(currentBlockdim.x.getLoc(),
90ecfa2aSNicolas Vasilache                                                   dim);
90ecfa2aSNicolas Vasilache  };
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache  if (gridDimX.has_value())
90ecfa2aSNicolas Vasilache    gpuLaunch.getGridSizeXMutable().assign(createConstValue(gridDimX.value()));
90ecfa2aSNicolas Vasilache  if (gridDimY.has_value())
90ecfa2aSNicolas Vasilache    gpuLaunch.getGridSizeYMutable().assign(createConstValue(gridDimY.value()));
90ecfa2aSNicolas Vasilache  if (gridDimZ.has_value())
90ecfa2aSNicolas Vasilache    gpuLaunch.getGridSizeZMutable().assign(createConstValue(gridDimZ.value()));
90ecfa2aSNicolas Vasilache  if (blockDimX.has_value())
90ecfa2aSNicolas Vasilache    gpuLaunch.getBlockSizeXMutable().assign(
90ecfa2aSNicolas Vasilache        createConstValue(blockDimX.value()));
90ecfa2aSNicolas Vasilache  if (blockDimY.has_value())
90ecfa2aSNicolas Vasilache    gpuLaunch.getBlockSizeYMutable().assign(
90ecfa2aSNicolas Vasilache        createConstValue(blockDimY.value()));
90ecfa2aSNicolas Vasilache  if (blockDimZ.has_value())
90ecfa2aSNicolas Vasilache    gpuLaunch.getBlockSizeZMutable().assign(
90ecfa2aSNicolas Vasilache        createConstValue(blockDimZ.value()));
90ecfa2aSNicolas Vasilache  return DiagnosedSilenceableFailure::success();
90ecfa2aSNicolas Vasilache}
90ecfa2aSNicolas Vasilache
90ecfa2aSNicolas Vasilache} // namespace gpu
90ecfa2aSNicolas Vasilache} // namespace transform
90ecfa2aSNicolas Vasilache} // namespace mlir