Linalg/Transforms/DecomposeGenericByUnfoldingPermutation.cpp

*0ac4821bSJaved Absar//===- DecomposeGenericByUnfoldingPermutation.cpp                   -------===//
*0ac4821bSJaved Absar//
*0ac4821bSJaved Absar// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
*0ac4821bSJaved Absar// See https://llvm.org/LICENSE.txt for license information.
*0ac4821bSJaved Absar// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*0ac4821bSJaved Absar//
*0ac4821bSJaved Absar//===----------------------------------------------------------------------===//
*0ac4821bSJaved Absar//
*0ac4821bSJaved Absar#include "mlir/Dialect/Affine/IR/AffineOps.h"
*0ac4821bSJaved Absar#include "mlir/Dialect/Linalg/IR/Linalg.h"
*0ac4821bSJaved Absar#include "mlir/Dialect/Linalg/Transforms/Transforms.h"
*0ac4821bSJaved Absar#include <map>
*0ac4821bSJaved Absar#include <optional>
*0ac4821bSJaved Absar#include <utility>
*0ac4821bSJaved Absar
*0ac4821bSJaved Absarusing namespace mlir;
*0ac4821bSJaved Absarusing namespace mlir::linalg;
*0ac4821bSJaved Absar
*0ac4821bSJaved Absarnamespace {
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar/// This pattern decomposes the input operand(s) of a linalg.generic that has
*0ac4821bSJaved Absar/// a `transpose`, `broadcast`, or a mixture of two, into explicit transpose
*0ac4821bSJaved Absar/// and broadcast. Having them folded into the linalg.generic is a good
*0ac4821bSJaved Absar/// optimization but sometimes we may want to unwrap, i.e., `unfold` them as
*0ac4821bSJaved Absar/// explicit transpose and broadcast. This rewrite pattern helps do it for
*0ac4821bSJaved Absar/// each input operand. This is useful for instance when trying to recognize
*0ac4821bSJaved Absar/// named ops.
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar/// The transpose, broadcast, or mixture of both, are expressed in the affine
*0ac4821bSJaved Absar/// map of the operand. Technically it is essentially `projected permutation`.
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar///  Example
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar/// ```mlir
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar/// #projection = affine_map<(d0, d1, d2, d3, d4) -> (d2, d3, d1)>
*0ac4821bSJaved Absar/// #identity   = affine_map<(d0, d1, d2, d3, d4) -> (d0, d1, d2, d3, d4)>
*0ac4821bSJaved Absar/// ...
*0ac4821bSJaved Absar///    %res = linalg.generic
*0ac4821bSJaved Absar///       { indexing_maps = [#projection, #identity, #identity],
*0ac4821bSJaved Absar///       iterator_types = ["parallel", "parallel", "parallel",
*0ac4821bSJaved Absar///                         "parallel", "parallel"]}
*0ac4821bSJaved Absar///       ins(%x, %y : tensor<7x8x9xf32>, tensor<5x9x7x8x10xf32>)
*0ac4821bSJaved Absar///       outs(%z : tensor<5x9x7x8x10xf32>) {
*0ac4821bSJaved Absar///         ^bb0(%in: f32, %in_1: f32, %out: f32):
*0ac4821bSJaved Absar///              %div = arith.divf %in, %in_1 : f32
*0ac4821bSJaved Absar///              linalg.yield %div : f32
*0ac4821bSJaved Absar///    } -> tensor<5x9x7x8x10xf32>
*0ac4821bSJaved Absar/// ```
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar/// In the above IR operand `%x` map is a projected-permutation. This can be
*0ac4821bSJaved Absar/// unfolded as:
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar/// ```mlir
*0ac4821bSJaved Absar///   ...
*0ac4821bSJaved Absar///   %x_trans = linalg.transpose
*0ac4821bSJaved Absar///                   ins(%x : tensor<7x8x9xf32>)
*0ac4821bSJaved Absar///                   outs(%e1 : tensor<9x7x8xf32>) permutation = [2, 0, 1]
*0ac4821bSJaved Absar///   ...
*0ac4821bSJaved Absar///   %x_trans_bc = linalg.broadcast
*0ac4821bSJaved Absar///                   ins(%x_trans : tensor<9x7x8xf32>)
*0ac4821bSJaved Absar///                   outs(%e2 : tensor<5x9x7x8x10xf32>) dimensions = [0, 4]
*0ac4821bSJaved Absar///   %2 = linalg.div
*0ac4821bSJaved Absar///           ins(%x_trans_bc, %y :
*0ac4821bSJaved Absar///                  tensor<5x9x7x8x10xf32>, tensor<5x9x7x8x10xf32>)
*0ac4821bSJaved Absar///           outs(%arg2 : tensor<5x9x7x8x10xf32>) -> tensor<5x9x7x8x10xf32>
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar/// Note that linalg.generic has been 'specialized' to linalg.div.
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absar/// To unfold it, it is more optimal to transpose first and then do the
*0ac4821bSJaved Absar/// broadcast. However, if transpose is done first, the permutation map needs
*0ac4821bSJaved Absar/// to be expressed in terms of reduced dimension as broadcast hasn't happened
*0ac4821bSJaved Absar/// yet. Also, the broadcast dimensions in a linalg.generic come from other
*0ac4821bSJaved Absar/// operands (those not broadcasted along that particular dimension). We work
*0ac4821bSJaved Absar/// this out by computing the convex-polyhedron shape of the linalg.generic
*0ac4821bSJaved Absar/// iteration space from shapes of all the operands, both inputs and outputs.
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absarstruct DecomposeProjectedPermutation : public OpRewritePattern<GenericOp> {
*0ac4821bSJaved Absar  using OpRewritePattern<GenericOp>::OpRewritePattern;
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  LogicalResult matchAndRewrite(GenericOp genericOp,
*0ac4821bSJaved Absar                                PatternRewriter &rewriter) const override;
*0ac4821bSJaved Absar};
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar/// For the given `map`, determine what dimensions are transposed and what
*0ac4821bSJaved Absar/// dimensions are broadcasted.
*0ac4821bSJaved Absar/// Returns :
*0ac4821bSJaved Absar///   transpose-permutation, broadcast-dimensions` (empty if not needed)
*0ac4821bSJaved Absar///
*0ac4821bSJaved Absarstd::pair<SmallVector<int64_t>, SmallVector<int64_t>>
*0ac4821bSJaved AbsarcomputeTransposeBroadcast(AffineMap &map) {
*0ac4821bSJaved Absar  assert(map.isProjectedPermutation(false) && "not a projection");
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  // As the map is a projection it likely operates on a smaller set of
*0ac4821bSJaved Absar  // dimensions as far as the transpose is concerned (rest are broadcast).
*0ac4821bSJaved Absar  int64_t minorSize = map.getNumResults();
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  SmallVector<int64_t> minorResult;
*0ac4821bSJaved Absar  for (int64_t i = 0; i < minorSize; ++i) {
*0ac4821bSJaved Absar    auto expr = cast<AffineDimExpr>(map.getResults()[i]);
*0ac4821bSJaved Absar    minorResult.push_back(expr.getPosition());
*0ac4821bSJaved Absar  }
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  // If dims are not monotonically increasing then transpose is present.
*0ac4821bSJaved Absar  SmallVector<int64_t> sortedResMap(minorResult);
*0ac4821bSJaved Absar  std::sort(sortedResMap.begin(), sortedResMap.end());
*0ac4821bSJaved Absar  bool hasTranspose = !std::equal(minorResult.begin(), minorResult.end(),
*0ac4821bSJaved Absar                                  sortedResMap.begin(), sortedResMap.end());
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  // Walk the sorted map result to determine which dimensions are broadcasted.
*0ac4821bSJaved Absar  SmallVector<int64_t> broadcast;
*0ac4821bSJaved Absar  for (int64_t i = 0, j = 0; i < map.getNumInputs(); ++i) {
*0ac4821bSJaved Absar    if (j < minorSize && sortedResMap[j] == i) {
*0ac4821bSJaved Absar      j++;
*0ac4821bSJaved Absar      continue;
*0ac4821bSJaved Absar    }
*0ac4821bSJaved Absar    broadcast.push_back(i);
*0ac4821bSJaved Absar  }
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  SmallVector<int64_t> permutation;
*0ac4821bSJaved Absar  if (hasTranspose) {
*0ac4821bSJaved Absar    // Consider an operand `x : tensor<7x8x9>` of a genericOp that has
*0ac4821bSJaved Absar    // affine map `affine_map<(d0, d1, d2, d3, d4) -> (d2, d3, d1)>`
*0ac4821bSJaved Absar    // `x`s access is both transposed and broadcast. But when specifying
*0ac4821bSJaved Absar    // the `linalg.transpose(x : tensor<7x8x9>)` the dimensions need to be
*0ac4821bSJaved Absar    // specified as `affine_map<(d0,d1,d2) -> (d1, d2, d0)` instead of
*0ac4821bSJaved Absar    // refering to d3, d4. Therefore, re-base the transpose dimensions so
*0ac4821bSJaved Absar    // that they start from d0.
*0ac4821bSJaved Absar    permutation.resize(minorSize);
*0ac4821bSJaved Absar    std::map<int64_t, int64_t> minorMap;
*0ac4821bSJaved Absar    for (int64_t i = 0; i < minorSize; ++i)
*0ac4821bSJaved Absar      minorMap.insert({sortedResMap[i], i});
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    // Re-map the dimensions.
*0ac4821bSJaved Absar    SmallVector<int64_t> remappedResult(minorSize);
*0ac4821bSJaved Absar    for (int64_t i = 0; i < minorSize; ++i)
*0ac4821bSJaved Absar      remappedResult[i] = minorMap[minorResult[i]];
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    /// Calculate the permutation for the transpose.
*0ac4821bSJaved Absar    for (unsigned i = 0; i < minorSize; ++i) {
*0ac4821bSJaved Absar      permutation[remappedResult[i]] = i;
*0ac4821bSJaved Absar    }
*0ac4821bSJaved Absar  }
*0ac4821bSJaved Absar  return {permutation, broadcast};
*0ac4821bSJaved Absar}
*0ac4821bSJaved Absar
*0ac4821bSJaved AbsarLogicalResult DecomposeProjectedPermutation::matchAndRewrite(
*0ac4821bSJaved Absar    GenericOp op, PatternRewriter &rewriter) const {
*0ac4821bSJaved Absar  if (!op.hasPureTensorSemantics() || op.isSingleInputOutput() ||
*0ac4821bSJaved Absar      op.isSingleYieldOp() || !op.isAllParallelLoops())
*0ac4821bSJaved Absar    return failure();
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  // If the map of an operand is not a `projected permutation` then
*0ac4821bSJaved Absar  // it cannot be decomposed to mere transpose and broadcast.
*0ac4821bSJaved Absar  // The requirement that all maps be `projected permutation` may be
*0ac4821bSJaved Absar  // over-restrictive but since we need to determine shape of the
*0ac4821bSJaved Absar  // iteration space as well, reject if any map violates assumption.
*0ac4821bSJaved Absar  for (auto &opOperand : op->getOpOperands()) {
*0ac4821bSJaved Absar    auto map = op.getMatchingIndexingMap(&opOperand);
*0ac4821bSJaved Absar    if (!map.isProjectedPermutation(false))
*0ac4821bSJaved Absar      return failure();
*0ac4821bSJaved Absar  }
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  // Decomposing linalg.generic involves creating `tensor.empty`
*0ac4821bSJaved Absar  // which can have dynamic shapes but then we would have to work
*0ac4821bSJaved Absar  // out which operand can supply that runtime-value (tensor.dim).
*0ac4821bSJaved Absar  // Leaving it as a future TODO.
*0ac4821bSJaved Absar  if (llvm::any_of(op->getOpOperands(), [](OpOperand &oper) {
*0ac4821bSJaved Absar        auto opType = cast<RankedTensorType>(oper.get().getType());
*0ac4821bSJaved Absar        return ShapedType::isDynamicShape(opType.getShape());
*0ac4821bSJaved Absar      }))
*0ac4821bSJaved Absar    return failure();
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  auto outputShape = op.getStaticLoopRanges();
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  auto loc = op.getLoc();
*0ac4821bSJaved Absar  bool isChanged = false;
*0ac4821bSJaved Absar  SmallVector<Value> newInitValues = op.getDpsInputs();
*0ac4821bSJaved Absar  SmallVector<AffineMap> newMap = op.getIndexingMapsArray();
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  // Walk over each input operand and unfold if it is transposed, broadcast
*0ac4821bSJaved Absar  // or mix of two via operand's affine-map.
*0ac4821bSJaved Absar  for (int64_t i = 0; i < op.getNumDpsInputs(); ++i) {
*0ac4821bSJaved Absar    auto &map = newMap[i];
*0ac4821bSJaved Absar    auto inputRTType = cast<RankedTensorType>(newInitValues[i].getType());
*0ac4821bSJaved Absar    auto elType = inputRTType.getElementType();
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    /// Nothing to do if map is already an identity.
*0ac4821bSJaved Absar    if (map.isIdentity())
*0ac4821bSJaved Absar      continue;
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    auto [permutation, broadcastedDims] = computeTransposeBroadcast(map);
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    // Does it need transpose?
*0ac4821bSJaved Absar    if (!permutation.empty()) {
*0ac4821bSJaved Absar      /// linalg.transpose permutes the dimensions of input using
*0ac4821bSJaved Absar      /// rule: dim(result, i) = dim(input, permutation[i])
*0ac4821bSJaved Absar      SmallVector<int64_t> transposedShape(map.getNumResults());
*0ac4821bSJaved Absar      for (int64_t i = 0; i < map.getNumResults(); ++i)
*0ac4821bSJaved Absar        transposedShape[i] = inputRTType.getShape()[permutation[i]];
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar      Value emptyTensor =
*0ac4821bSJaved Absar          rewriter.create<tensor::EmptyOp>(loc, transposedShape, elType);
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar      auto transposeOp = rewriter.create<TransposeOp>(loc, newInitValues[i],
*0ac4821bSJaved Absar                                                      emptyTensor, permutation);
*0ac4821bSJaved Absar      newInitValues[i] = transposeOp->getResult(0);
*0ac4821bSJaved Absar      isChanged = true;
*0ac4821bSJaved Absar    }
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    // Does it require broadcast?
*0ac4821bSJaved Absar    if (!broadcastedDims.empty()) {
*0ac4821bSJaved Absar      assert(broadcastedDims.size() && "should have non size broadcast");
*0ac4821bSJaved Absar      Value emptyTensor = rewriter.create<tensor::EmptyOp>(
*0ac4821bSJaved Absar          loc, outputShape, inputRTType.getElementType());
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar      auto broadcastOp = rewriter.create<linalg::BroadcastOp>(
*0ac4821bSJaved Absar          loc, newInitValues[i], emptyTensor, broadcastedDims);
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar      newInitValues[i] = broadcastOp->getResult(0);
*0ac4821bSJaved Absar      isChanged = true;
*0ac4821bSJaved Absar    }
*0ac4821bSJaved Absar    newMap[i] = rewriter.getMultiDimIdentityMap(map.getNumDims());
*0ac4821bSJaved Absar  }
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar  if (isChanged) {
*0ac4821bSJaved Absar    SmallVector<Value> operands = op->getOperands();
*0ac4821bSJaved Absar    ValueRange operandsRef(operands);
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    auto newOp = rewriter.create<linalg::GenericOp>(
*0ac4821bSJaved Absar        /*location=*/op.getLoc(),
*0ac4821bSJaved Absar        /*resultTensorTypes=*/op->getResultTypes(),
*0ac4821bSJaved Absar        /*inputs=*/newInitValues,
*0ac4821bSJaved Absar        /*outputs=*/operandsRef.drop_front(op.getNumDpsInputs()),
*0ac4821bSJaved Absar        /*indexingMaps=*/newMap,
*0ac4821bSJaved Absar        /*iteratorTypes=*/op.getIteratorTypesArray());
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar    newOp.getRegion().takeBody(op->getRegion(0));
*0ac4821bSJaved Absar    rewriter.replaceOp(op, newOp->getResults());
*0ac4821bSJaved Absar  }
*0ac4821bSJaved Absar  return success();
*0ac4821bSJaved Absar}
*0ac4821bSJaved Absar
*0ac4821bSJaved Absar} // namespace
*0ac4821bSJaved Absar
*0ac4821bSJaved Absarvoid mlir::linalg::populateDecomposeProjectedPermutationPatterns(
*0ac4821bSJaved Absar    RewritePatternSet &patterns) {
*0ac4821bSJaved Absar  patterns.insert<DecomposeProjectedPermutation>(patterns.getContext());
*0ac4821bSJaved Absar}