Vector/Transforms/LowerVectorTranspose.cpp

2bc4c3e9SNicolas Vasilache//===- LowerVectorTranspose.cpp - Lower 'vector.transpose' operation ------===//
2bc4c3e9SNicolas Vasilache//
2bc4c3e9SNicolas Vasilache// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
2bc4c3e9SNicolas Vasilache// See https://llvm.org/LICENSE.txt for license information.
2bc4c3e9SNicolas Vasilache// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
2bc4c3e9SNicolas Vasilache//
2bc4c3e9SNicolas Vasilache//===----------------------------------------------------------------------===//
2bc4c3e9SNicolas Vasilache//
2bc4c3e9SNicolas Vasilache// This file implements target-independent rewrites and utilities to lower the
2bc4c3e9SNicolas Vasilache// 'vector.transpose' operation.
2bc4c3e9SNicolas Vasilache//
2bc4c3e9SNicolas Vasilache//===----------------------------------------------------------------------===//
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Affine/IR/AffineOps.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Arith/IR/Arith.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Arith/Utils/Utils.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Linalg/IR/Linalg.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/MemRef/IR/MemRef.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/SCF/IR/SCF.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Tensor/IR/Tensor.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Utils/IndexingUtils.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Utils/StructuredOpsUtils.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Vector/IR/VectorOps.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Vector/Transforms/LoweringPatterns.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Dialect/Vector/Utils/VectorUtils.h"
2bc4c3e9SNicolas Vasilache#include "mlir/IR/BuiltinAttributeInterfaces.h"
2bc4c3e9SNicolas Vasilache#include "mlir/IR/BuiltinTypes.h"
2bc4c3e9SNicolas Vasilache#include "mlir/IR/ImplicitLocOpBuilder.h"
2bc4c3e9SNicolas Vasilache#include "mlir/IR/Location.h"
2bc4c3e9SNicolas Vasilache#include "mlir/IR/Matchers.h"
2bc4c3e9SNicolas Vasilache#include "mlir/IR/PatternMatch.h"
2bc4c3e9SNicolas Vasilache#include "mlir/IR/TypeUtilities.h"
2bc4c3e9SNicolas Vasilache#include "mlir/Interfaces/VectorInterfaces.h"
2bc4c3e9SNicolas Vasilache
eb7f9feeSDiego Caballero#define DEBUG_TYPE "lower-vector-transpose"
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilacheusing namespace mlir;
2bc4c3e9SNicolas Vasilacheusing namespace mlir::vector;
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache/// Given a 'transpose' pattern, prune the rightmost dimensions that are not
2bc4c3e9SNicolas Vasilache/// transposed.
2bc4c3e9SNicolas Vasilachestatic void pruneNonTransposedDims(ArrayRef<int64_t> transpose,
2bc4c3e9SNicolas Vasilache                                   SmallVectorImpl<int64_t> &result) {
2bc4c3e9SNicolas Vasilache  size_t numTransposedDims = transpose.size();
2bc4c3e9SNicolas Vasilache  for (size_t transpDim : llvm::reverse(transpose)) {
2bc4c3e9SNicolas Vasilache    if (transpDim != numTransposedDims - 1)
2bc4c3e9SNicolas Vasilache      break;
2bc4c3e9SNicolas Vasilache    numTransposedDims--;
2bc4c3e9SNicolas Vasilache  }
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache  result.append(transpose.begin(), transpose.begin() + numTransposedDims);
2bc4c3e9SNicolas Vasilache}
2bc4c3e9SNicolas Vasilache
8d163e50SHanhan Wang/// Returns true if the lowering option is a vector shuffle based approach.
8d163e50SHanhan Wangstatic bool isShuffleLike(VectorTransposeLowering lowering) {
8d163e50SHanhan Wang  return lowering == VectorTransposeLowering::Shuffle1D ||
8d163e50SHanhan Wang         lowering == VectorTransposeLowering::Shuffle16x16;
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Returns a shuffle mask that builds on `vals`. `vals` is the offset base of
8d163e50SHanhan Wang/// shuffle ops, i.e., the unpack pattern. The method iterates with `vals` to
8d163e50SHanhan Wang/// create the mask for `numBits` bits vector. The `numBits` have to be a
8d163e50SHanhan Wang/// multiple of 128. For example, if `vals` is {0, 1, 16, 17} and `numBits` is
8d163e50SHanhan Wang/// 512, there should be 16 elements in the final result. It constructs the
8d163e50SHanhan Wang/// below mask to get the unpack elements.
8d163e50SHanhan Wang///   [0,    1,    16,    17,
8d163e50SHanhan Wang///    0+4,  1+4,  16+4,  17+4,
8d163e50SHanhan Wang///    0+8,  1+8,  16+8,  17+8,
8d163e50SHanhan Wang///    0+12, 1+12, 16+12, 17+12]
8d163e50SHanhan Wangstatic SmallVector<int64_t>
8d163e50SHanhan WanggetUnpackShufflePermFor128Lane(ArrayRef<int64_t> vals, int numBits) {
8d163e50SHanhan Wang  assert(numBits % 128 == 0 && "expected numBits is a multiple of 128");
8d163e50SHanhan Wang  int numElem = numBits / 32;
8d163e50SHanhan Wang  SmallVector<int64_t> res;
8d163e50SHanhan Wang  for (int i = 0; i < numElem; i += 4)
8d163e50SHanhan Wang    for (int64_t v : vals)
8d163e50SHanhan Wang      res.push_back(v + i);
8d163e50SHanhan Wang  return res;
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Lower to vector.shuffle on v1 and v2 with UnpackLoPd shuffle mask. For
8d163e50SHanhan Wang/// example, if it is targeting 512 bit vector, returns
8d163e50SHanhan Wang///   vector.shuffle on v1, v2, [0,    1,    16,    17,
8d163e50SHanhan Wang///                              0+4,  1+4,  16+4,  17+4,
8d163e50SHanhan Wang///                              0+8,  1+8,  16+8,  17+8,
8d163e50SHanhan Wang///                              0+12, 1+12, 16+12, 17+12].
8d163e50SHanhan Wangstatic Value createUnpackLoPd(ImplicitLocOpBuilder &b, Value v1, Value v2,
8d163e50SHanhan Wang                              int numBits) {
8d163e50SHanhan Wang  int numElem = numBits / 32;
8d163e50SHanhan Wang  return b.create<vector::ShuffleOp>(
8d163e50SHanhan Wang      v1, v2,
8d163e50SHanhan Wang      getUnpackShufflePermFor128Lane({0, 1, numElem, numElem + 1}, numBits));
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Lower to vector.shuffle on v1 and v2 with UnpackHiPd shuffle mask. For
8d163e50SHanhan Wang/// example, if it is targeting 512 bit vector, returns
8d163e50SHanhan Wang///   vector.shuffle, v1, v2, [2,    3,    18,    19,
8d163e50SHanhan Wang///                            2+4,  3+4,  18+4,  19+4,
8d163e50SHanhan Wang///                            2+8,  3+8,  18+8,  19+8,
8d163e50SHanhan Wang///                            2+12, 3+12, 18+12, 19+12].
8d163e50SHanhan Wangstatic Value createUnpackHiPd(ImplicitLocOpBuilder &b, Value v1, Value v2,
8d163e50SHanhan Wang                              int numBits) {
8d163e50SHanhan Wang  int numElem = numBits / 32;
8d163e50SHanhan Wang  return b.create<vector::ShuffleOp>(
8d163e50SHanhan Wang      v1, v2,
8d163e50SHanhan Wang      getUnpackShufflePermFor128Lane({2, 3, numElem + 2, numElem + 3},
8d163e50SHanhan Wang                                     numBits));
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Lower to vector.shuffle on v1 and v2 with UnpackLoPs shuffle mask. For
8d163e50SHanhan Wang/// example, if it is targeting 512 bit vector, returns
8d163e50SHanhan Wang///   vector.shuffle, v1, v2, [0,    16,    1,    17,
8d163e50SHanhan Wang///                            0+4,  16+4,  1+4,  17+4,
8d163e50SHanhan Wang///                            0+8,  16+8,  1+8,  17+8,
8d163e50SHanhan Wang///                            0+12, 16+12, 1+12, 17+12].
8d163e50SHanhan Wangstatic Value createUnpackLoPs(ImplicitLocOpBuilder &b, Value v1, Value v2,
8d163e50SHanhan Wang                              int numBits) {
8d163e50SHanhan Wang  int numElem = numBits / 32;
8d163e50SHanhan Wang  auto shuffle = b.create<vector::ShuffleOp>(
8d163e50SHanhan Wang      v1, v2,
8d163e50SHanhan Wang      getUnpackShufflePermFor128Lane({0, numElem, 1, numElem + 1}, numBits));
8d163e50SHanhan Wang  return shuffle;
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Lower to vector.shuffle on v1 and v2 with UnpackHiPs shuffle mask. For
8d163e50SHanhan Wang/// example, if it is targeting 512 bit vector, returns
8d163e50SHanhan Wang///   vector.shuffle, v1, v2, [2,    18,    3,    19,
8d163e50SHanhan Wang///                            2+4,  18+4,  3+4,  19+4,
8d163e50SHanhan Wang///                            2+8,  18+8,  3+8,  19+8,
8d163e50SHanhan Wang///                            2+12, 18+12, 3+12, 19+12].
8d163e50SHanhan Wangstatic Value createUnpackHiPs(ImplicitLocOpBuilder &b, Value v1, Value v2,
8d163e50SHanhan Wang                              int numBits) {
8d163e50SHanhan Wang  int numElem = numBits / 32;
8d163e50SHanhan Wang  return b.create<vector::ShuffleOp>(
8d163e50SHanhan Wang      v1, v2,
8d163e50SHanhan Wang      getUnpackShufflePermFor128Lane({2, numElem + 2, 3, numElem + 3},
8d163e50SHanhan Wang                                     numBits));
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Returns a vector.shuffle that shuffles 128-bit lanes (composed of 4 32-bit
8d163e50SHanhan Wang/// elements) selected by `mask` from `v1` and `v2`. I.e.,
8d163e50SHanhan Wang///
8d163e50SHanhan Wang/// DEFINE SELECT4(src, control) {
8d163e50SHanhan Wang///	CASE(control[1:0]) OF
8d163e50SHanhan Wang///	0:	tmp[127:0] := src[127:0]
8d163e50SHanhan Wang///	1:	tmp[127:0] := src[255:128]
8d163e50SHanhan Wang///	2:	tmp[127:0] := src[383:256]
8d163e50SHanhan Wang///	3:	tmp[127:0] := src[511:384]
8d163e50SHanhan Wang///	ESAC
8d163e50SHanhan Wang///	RETURN tmp[127:0]
8d163e50SHanhan Wang/// }
8d163e50SHanhan Wang/// dst[127:0]   := SELECT4(v1[511:0], mask[1:0])
8d163e50SHanhan Wang/// dst[255:128] := SELECT4(v1[511:0], mask[3:2])
8d163e50SHanhan Wang/// dst[383:256] := SELECT4(v2[511:0], mask[5:4])
8d163e50SHanhan Wang/// dst[511:384] := SELECT4(v2[511:0], mask[7:6])
8d163e50SHanhan Wangstatic Value create4x128BitSuffle(ImplicitLocOpBuilder &b, Value v1, Value v2,
8d163e50SHanhan Wang                                  uint8_t mask) {
5550c821STres Popp  assert(cast<VectorType>(v1.getType()).getShape()[0] == 16 &&
8d163e50SHanhan Wang         "expected a vector with length=16");
8d163e50SHanhan Wang  SmallVector<int64_t> shuffleMask;
8d163e50SHanhan Wang  auto appendToMask = [&](int64_t base, uint8_t control) {
8d163e50SHanhan Wang    switch (control) {
8d163e50SHanhan Wang    case 0:
8d163e50SHanhan Wang      llvm::append_range(shuffleMask, ArrayRef<int64_t>{base + 0, base + 1,
8d163e50SHanhan Wang                                                        base + 2, base + 3});
8d163e50SHanhan Wang      break;
8d163e50SHanhan Wang    case 1:
8d163e50SHanhan Wang      llvm::append_range(shuffleMask, ArrayRef<int64_t>{base + 4, base + 5,
8d163e50SHanhan Wang                                                        base + 6, base + 7});
8d163e50SHanhan Wang      break;
8d163e50SHanhan Wang    case 2:
8d163e50SHanhan Wang      llvm::append_range(shuffleMask, ArrayRef<int64_t>{base + 8, base + 9,
8d163e50SHanhan Wang                                                        base + 10, base + 11});
8d163e50SHanhan Wang      break;
8d163e50SHanhan Wang    case 3:
8d163e50SHanhan Wang      llvm::append_range(shuffleMask, ArrayRef<int64_t>{base + 12, base + 13,
8d163e50SHanhan Wang                                                        base + 14, base + 15});
8d163e50SHanhan Wang      break;
8d163e50SHanhan Wang    default:
8d163e50SHanhan Wang      llvm_unreachable("control > 3 : overflow");
8d163e50SHanhan Wang    }
8d163e50SHanhan Wang  };
8d163e50SHanhan Wang  uint8_t b01 = mask & 0x3;
8d163e50SHanhan Wang  uint8_t b23 = (mask >> 2) & 0x3;
8d163e50SHanhan Wang  uint8_t b45 = (mask >> 4) & 0x3;
8d163e50SHanhan Wang  uint8_t b67 = (mask >> 6) & 0x3;
8d163e50SHanhan Wang  appendToMask(0, b01);
8d163e50SHanhan Wang  appendToMask(0, b23);
8d163e50SHanhan Wang  appendToMask(16, b45);
8d163e50SHanhan Wang  appendToMask(16, b67);
8d163e50SHanhan Wang  return b.create<vector::ShuffleOp>(v1, v2, shuffleMask);
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Lowers the value to a vector.shuffle op. The `source` is expected to be a
8d163e50SHanhan Wang/// 1-D vector and have `m`x`n` elements.
8d163e50SHanhan Wangstatic Value transposeToShuffle1D(OpBuilder &b, Value source, int m, int n) {
8d163e50SHanhan Wang  SmallVector<int64_t> mask;
8d163e50SHanhan Wang  mask.reserve(m * n);
8d163e50SHanhan Wang  for (int64_t j = 0; j < n; ++j)
8d163e50SHanhan Wang    for (int64_t i = 0; i < m; ++i)
8d163e50SHanhan Wang      mask.push_back(i * n + j);
8d163e50SHanhan Wang  return b.create<vector::ShuffleOp>(source.getLoc(), source, source, mask);
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
8d163e50SHanhan Wang/// Lowers the value to a sequence of vector.shuffle ops. The `source` is
8d163e50SHanhan Wang/// expected to be a 16x16 vector.
8d163e50SHanhan Wangstatic Value transposeToShuffle16x16(OpBuilder &builder, Value source, int m,
8d163e50SHanhan Wang                                     int n) {
8d163e50SHanhan Wang  ImplicitLocOpBuilder b(source.getLoc(), builder);
8d163e50SHanhan Wang  SmallVector<Value> vs;
8d163e50SHanhan Wang  for (int64_t i = 0; i < m; ++i)
8d163e50SHanhan Wang    vs.push_back(b.create<vector::ExtractOp>(source, i));
8d163e50SHanhan Wang
8d163e50SHanhan Wang  // Interleave 32-bit lanes using
8d163e50SHanhan Wang  //   8x _mm512_unpacklo_epi32
8d163e50SHanhan Wang  //   8x _mm512_unpackhi_epi32
8d163e50SHanhan Wang  Value t0 = createUnpackLoPs(b, vs[0x0], vs[0x1], 512);
8d163e50SHanhan Wang  Value t1 = createUnpackHiPs(b, vs[0x0], vs[0x1], 512);
8d163e50SHanhan Wang  Value t2 = createUnpackLoPs(b, vs[0x2], vs[0x3], 512);
8d163e50SHanhan Wang  Value t3 = createUnpackHiPs(b, vs[0x2], vs[0x3], 512);
8d163e50SHanhan Wang  Value t4 = createUnpackLoPs(b, vs[0x4], vs[0x5], 512);
8d163e50SHanhan Wang  Value t5 = createUnpackHiPs(b, vs[0x4], vs[0x5], 512);
8d163e50SHanhan Wang  Value t6 = createUnpackLoPs(b, vs[0x6], vs[0x7], 512);
8d163e50SHanhan Wang  Value t7 = createUnpackHiPs(b, vs[0x6], vs[0x7], 512);
8d163e50SHanhan Wang  Value t8 = createUnpackLoPs(b, vs[0x8], vs[0x9], 512);
8d163e50SHanhan Wang  Value t9 = createUnpackHiPs(b, vs[0x8], vs[0x9], 512);
8d163e50SHanhan Wang  Value ta = createUnpackLoPs(b, vs[0xa], vs[0xb], 512);
8d163e50SHanhan Wang  Value tb = createUnpackHiPs(b, vs[0xa], vs[0xb], 512);
8d163e50SHanhan Wang  Value tc = createUnpackLoPs(b, vs[0xc], vs[0xd], 512);
8d163e50SHanhan Wang  Value td = createUnpackHiPs(b, vs[0xc], vs[0xd], 512);
8d163e50SHanhan Wang  Value te = createUnpackLoPs(b, vs[0xe], vs[0xf], 512);
8d163e50SHanhan Wang  Value tf = createUnpackHiPs(b, vs[0xe], vs[0xf], 512);
8d163e50SHanhan Wang
8d163e50SHanhan Wang  // Interleave 64-bit lanes using
8d163e50SHanhan Wang  //   8x _mm512_unpacklo_epi64
8d163e50SHanhan Wang  //   8x _mm512_unpackhi_epi64
8d163e50SHanhan Wang  Value r0 = createUnpackLoPd(b, t0, t2, 512);
8d163e50SHanhan Wang  Value r1 = createUnpackHiPd(b, t0, t2, 512);
8d163e50SHanhan Wang  Value r2 = createUnpackLoPd(b, t1, t3, 512);
8d163e50SHanhan Wang  Value r3 = createUnpackHiPd(b, t1, t3, 512);
8d163e50SHanhan Wang  Value r4 = createUnpackLoPd(b, t4, t6, 512);
8d163e50SHanhan Wang  Value r5 = createUnpackHiPd(b, t4, t6, 512);
8d163e50SHanhan Wang  Value r6 = createUnpackLoPd(b, t5, t7, 512);
8d163e50SHanhan Wang  Value r7 = createUnpackHiPd(b, t5, t7, 512);
8d163e50SHanhan Wang  Value r8 = createUnpackLoPd(b, t8, ta, 512);
8d163e50SHanhan Wang  Value r9 = createUnpackHiPd(b, t8, ta, 512);
8d163e50SHanhan Wang  Value ra = createUnpackLoPd(b, t9, tb, 512);
8d163e50SHanhan Wang  Value rb = createUnpackHiPd(b, t9, tb, 512);
8d163e50SHanhan Wang  Value rc = createUnpackLoPd(b, tc, te, 512);
8d163e50SHanhan Wang  Value rd = createUnpackHiPd(b, tc, te, 512);
8d163e50SHanhan Wang  Value re = createUnpackLoPd(b, td, tf, 512);
8d163e50SHanhan Wang  Value rf = createUnpackHiPd(b, td, tf, 512);
8d163e50SHanhan Wang
8d163e50SHanhan Wang  // Permute 128-bit lanes using
8d163e50SHanhan Wang  //   16x _mm512_shuffle_i32x4
8d163e50SHanhan Wang  t0 = create4x128BitSuffle(b, r0, r4, 0x88);
8d163e50SHanhan Wang  t1 = create4x128BitSuffle(b, r1, r5, 0x88);
8d163e50SHanhan Wang  t2 = create4x128BitSuffle(b, r2, r6, 0x88);
8d163e50SHanhan Wang  t3 = create4x128BitSuffle(b, r3, r7, 0x88);
8d163e50SHanhan Wang  t4 = create4x128BitSuffle(b, r0, r4, 0xdd);
8d163e50SHanhan Wang  t5 = create4x128BitSuffle(b, r1, r5, 0xdd);
8d163e50SHanhan Wang  t6 = create4x128BitSuffle(b, r2, r6, 0xdd);
8d163e50SHanhan Wang  t7 = create4x128BitSuffle(b, r3, r7, 0xdd);
8d163e50SHanhan Wang  t8 = create4x128BitSuffle(b, r8, rc, 0x88);
8d163e50SHanhan Wang  t9 = create4x128BitSuffle(b, r9, rd, 0x88);
8d163e50SHanhan Wang  ta = create4x128BitSuffle(b, ra, re, 0x88);
8d163e50SHanhan Wang  tb = create4x128BitSuffle(b, rb, rf, 0x88);
8d163e50SHanhan Wang  tc = create4x128BitSuffle(b, r8, rc, 0xdd);
8d163e50SHanhan Wang  td = create4x128BitSuffle(b, r9, rd, 0xdd);
8d163e50SHanhan Wang  te = create4x128BitSuffle(b, ra, re, 0xdd);
8d163e50SHanhan Wang  tf = create4x128BitSuffle(b, rb, rf, 0xdd);
8d163e50SHanhan Wang
8d163e50SHanhan Wang  // Permute 256-bit lanes using again
8d163e50SHanhan Wang  //   16x _mm512_shuffle_i32x4
8d163e50SHanhan Wang  vs[0x0] = create4x128BitSuffle(b, t0, t8, 0x88);
8d163e50SHanhan Wang  vs[0x1] = create4x128BitSuffle(b, t1, t9, 0x88);
8d163e50SHanhan Wang  vs[0x2] = create4x128BitSuffle(b, t2, ta, 0x88);
8d163e50SHanhan Wang  vs[0x3] = create4x128BitSuffle(b, t3, tb, 0x88);
8d163e50SHanhan Wang  vs[0x4] = create4x128BitSuffle(b, t4, tc, 0x88);
8d163e50SHanhan Wang  vs[0x5] = create4x128BitSuffle(b, t5, td, 0x88);
8d163e50SHanhan Wang  vs[0x6] = create4x128BitSuffle(b, t6, te, 0x88);
8d163e50SHanhan Wang  vs[0x7] = create4x128BitSuffle(b, t7, tf, 0x88);
8d163e50SHanhan Wang  vs[0x8] = create4x128BitSuffle(b, t0, t8, 0xdd);
8d163e50SHanhan Wang  vs[0x9] = create4x128BitSuffle(b, t1, t9, 0xdd);
8d163e50SHanhan Wang  vs[0xa] = create4x128BitSuffle(b, t2, ta, 0xdd);
8d163e50SHanhan Wang  vs[0xb] = create4x128BitSuffle(b, t3, tb, 0xdd);
8d163e50SHanhan Wang  vs[0xc] = create4x128BitSuffle(b, t4, tc, 0xdd);
8d163e50SHanhan Wang  vs[0xd] = create4x128BitSuffle(b, t5, td, 0xdd);
8d163e50SHanhan Wang  vs[0xe] = create4x128BitSuffle(b, t6, te, 0xdd);
8d163e50SHanhan Wang  vs[0xf] = create4x128BitSuffle(b, t7, tf, 0xdd);
8d163e50SHanhan Wang
8d163e50SHanhan Wang  auto reshInputType = VectorType::get(
5550c821STres Popp      {m, n}, cast<VectorType>(source.getType()).getElementType());
8d163e50SHanhan Wang  Value res =
8d163e50SHanhan Wang      b.create<arith::ConstantOp>(reshInputType, b.getZeroAttr(reshInputType));
8d163e50SHanhan Wang  for (int64_t i = 0; i < m; ++i)
8d163e50SHanhan Wang    res = b.create<vector::InsertOp>(vs[i], res, i);
8d163e50SHanhan Wang  return res;
8d163e50SHanhan Wang}
8d163e50SHanhan Wang
2bc4c3e9SNicolas Vasilachenamespace {
2bc4c3e9SNicolas Vasilache/// Progressive lowering of TransposeOp.
2bc4c3e9SNicolas Vasilache/// One:
2bc4c3e9SNicolas Vasilache///   %x = vector.transpose %y, [1, 0]
2bc4c3e9SNicolas Vasilache/// is replaced by:
2bc4c3e9SNicolas Vasilache///   %z = arith.constant dense<0.000000e+00>
2bc4c3e9SNicolas Vasilache///   %0 = vector.extract %y[0, 0]
2bc4c3e9SNicolas Vasilache///   %1 = vector.insert %0, %z [0, 0]
2bc4c3e9SNicolas Vasilache///   ..
2bc4c3e9SNicolas Vasilache///   %x = vector.insert .., .. [.., ..]
2bc4c3e9SNicolas Vasilacheclass TransposeOpLowering : public OpRewritePattern<vector::TransposeOp> {
2bc4c3e9SNicolas Vasilachepublic:
2bc4c3e9SNicolas Vasilache  using OpRewritePattern::OpRewritePattern;
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache  TransposeOpLowering(vector::VectorTransformsOptions vectorTransformOptions,
2bc4c3e9SNicolas Vasilache                      MLIRContext *context, PatternBenefit benefit = 1)
2bc4c3e9SNicolas Vasilache      : OpRewritePattern<vector::TransposeOp>(context, benefit),
2bc4c3e9SNicolas Vasilache        vectorTransformOptions(vectorTransformOptions) {}
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache  LogicalResult matchAndRewrite(vector::TransposeOp op,
2bc4c3e9SNicolas Vasilache                                PatternRewriter &rewriter) const override {
2bc4c3e9SNicolas Vasilache    auto loc = op.getLoc();
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    Value input = op.getVector();
2bc4c3e9SNicolas Vasilache    VectorType inputType = op.getSourceVectorType();
2bc4c3e9SNicolas Vasilache    VectorType resType = op.getResultVectorType();
2bc4c3e9SNicolas Vasilache
*cbd72cb0SAndrzej Warzyński    if (inputType.isScalable())
*cbd72cb0SAndrzej Warzyński      return rewriter.notifyMatchFailure(
*cbd72cb0SAndrzej Warzyński          op, "This lowering does not support scalable vectors");
*cbd72cb0SAndrzej Warzyński
2bc4c3e9SNicolas Vasilache    // Set up convenience transposition table.
32c3decbSMatthias Springer    ArrayRef<int64_t> transp = op.getPermutation();
2bc4c3e9SNicolas Vasilache
8d163e50SHanhan Wang    if (isShuffleLike(vectorTransformOptions.vectorTransposeLowering) &&
25cc5a71SHanhan Wang        succeeded(isTranspose2DSlice(op)))
2bc4c3e9SNicolas Vasilache      return rewriter.notifyMatchFailure(
2bc4c3e9SNicolas Vasilache          op, "Options specifies lowering to shuffle");
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    // Handle a true 2-D matrix transpose differently when requested.
2bc4c3e9SNicolas Vasilache    if (vectorTransformOptions.vectorTransposeLowering ==
2bc4c3e9SNicolas Vasilache            vector::VectorTransposeLowering::Flat &&
2bc4c3e9SNicolas Vasilache        resType.getRank() == 2 && transp[0] == 1 && transp[1] == 0) {
2bc4c3e9SNicolas Vasilache      Type flattenedType =
2bc4c3e9SNicolas Vasilache          VectorType::get(resType.getNumElements(), resType.getElementType());
2bc4c3e9SNicolas Vasilache      auto matrix =
2bc4c3e9SNicolas Vasilache          rewriter.create<vector::ShapeCastOp>(loc, flattenedType, input);
2bc4c3e9SNicolas Vasilache      auto rows = rewriter.getI32IntegerAttr(resType.getShape()[0]);
2bc4c3e9SNicolas Vasilache      auto columns = rewriter.getI32IntegerAttr(resType.getShape()[1]);
2bc4c3e9SNicolas Vasilache      Value trans = rewriter.create<vector::FlatTransposeOp>(
2bc4c3e9SNicolas Vasilache          loc, flattenedType, matrix, rows, columns);
2bc4c3e9SNicolas Vasilache      rewriter.replaceOpWithNewOp<vector::ShapeCastOp>(op, resType, trans);
2bc4c3e9SNicolas Vasilache      return success();
2bc4c3e9SNicolas Vasilache    }
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    // Generate unrolled extract/insert ops. We do not unroll the rightmost
2bc4c3e9SNicolas Vasilache    // (i.e., highest-order) dimensions that are not transposed and leave them
2bc4c3e9SNicolas Vasilache    // in vector form to improve performance. Therefore, we prune those
2bc4c3e9SNicolas Vasilache    // dimensions from the shape/transpose data structures used to generate the
2bc4c3e9SNicolas Vasilache    // extract/insert ops.
2bc4c3e9SNicolas Vasilache    SmallVector<int64_t> prunedTransp;
2bc4c3e9SNicolas Vasilache    pruneNonTransposedDims(transp, prunedTransp);
2bc4c3e9SNicolas Vasilache    size_t numPrunedDims = transp.size() - prunedTransp.size();
2bc4c3e9SNicolas Vasilache    auto prunedInShape = inputType.getShape().drop_back(numPrunedDims);
2bc4c3e9SNicolas Vasilache    auto prunedInStrides = computeStrides(prunedInShape);
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    // Generates the extract/insert operations for every scalar/vector element
2bc4c3e9SNicolas Vasilache    // of the leftmost transposed dimensions. We traverse every transpose
2bc4c3e9SNicolas Vasilache    // element using a linearized index that we delinearize to generate the
2bc4c3e9SNicolas Vasilache    // appropriate indices for the extract/insert operations.
2bc4c3e9SNicolas Vasilache    Value result = rewriter.create<arith::ConstantOp>(
2bc4c3e9SNicolas Vasilache        loc, resType, rewriter.getZeroAttr(resType));
2bc4c3e9SNicolas Vasilache    int64_t numTransposedElements = ShapedType::getNumElements(prunedInShape);
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    for (int64_t linearIdx = 0; linearIdx < numTransposedElements;
2bc4c3e9SNicolas Vasilache         ++linearIdx) {
2bc4c3e9SNicolas Vasilache      auto extractIdxs = delinearize(linearIdx, prunedInStrides);
2bc4c3e9SNicolas Vasilache      SmallVector<int64_t> insertIdxs(extractIdxs);
2bc4c3e9SNicolas Vasilache      applyPermutationToVector(insertIdxs, prunedTransp);
2bc4c3e9SNicolas Vasilache      Value extractOp =
2bc4c3e9SNicolas Vasilache          rewriter.create<vector::ExtractOp>(loc, input, extractIdxs);
2bc4c3e9SNicolas Vasilache      result =
2bc4c3e9SNicolas Vasilache          rewriter.create<vector::InsertOp>(loc, extractOp, result, insertIdxs);
2bc4c3e9SNicolas Vasilache    }
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    rewriter.replaceOp(op, result);
2bc4c3e9SNicolas Vasilache    return success();
2bc4c3e9SNicolas Vasilache  }
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilacheprivate:
2bc4c3e9SNicolas Vasilache  /// Options to control the vector patterns.
2bc4c3e9SNicolas Vasilache  vector::VectorTransformsOptions vectorTransformOptions;
2bc4c3e9SNicolas Vasilache};
2bc4c3e9SNicolas Vasilache
*cbd72cb0SAndrzej Warzyński/// Rewrites vector.transpose as vector.shape_cast. This pattern is only applied
*cbd72cb0SAndrzej Warzyński/// to 2D vectors with at least one unit dim. For example:
*cbd72cb0SAndrzej Warzyński///
*cbd72cb0SAndrzej Warzyński/// Replace:
*cbd72cb0SAndrzej Warzyński///   vector.transpose %0, [1, 0] : vector<4x1xi32>> to
*cbd72cb0SAndrzej Warzyński///                                 vector<1x4xi32>
*cbd72cb0SAndrzej Warzyński/// with:
*cbd72cb0SAndrzej Warzyński///   vector.shape_cast %0 : vector<4x1xi32> to vector<1x4xi32>
*cbd72cb0SAndrzej Warzyński///
*cbd72cb0SAndrzej Warzyński/// Source with leading unit dim (inverse) is also replaced. Unit dim must
*cbd72cb0SAndrzej Warzyński/// be fixed. Non-unit dim can be scalable.
*cbd72cb0SAndrzej Warzyński///
*cbd72cb0SAndrzej Warzyński/// TODO: This pattern was introduced specifically to help lower scalable
*cbd72cb0SAndrzej Warzyński/// vectors. In hindsight, a more specialised canonicalization (for shape_cast's
*cbd72cb0SAndrzej Warzyński/// to cancel out) would be preferable:
*cbd72cb0SAndrzej Warzyński///
*cbd72cb0SAndrzej Warzyński///  BEFORE:
*cbd72cb0SAndrzej Warzyński///     %0 = some_op
*cbd72cb0SAndrzej Warzyński///     %1 = vector.shape_cast %0 : vector<[4]xf32> to vector<[4]x1xf32>
*cbd72cb0SAndrzej Warzyński///     %2 = vector.transpose %1 [1, 0] : vector<[4]x1xf32> to vector<1x[4]xf32>
*cbd72cb0SAndrzej Warzyński///  AFTER:
*cbd72cb0SAndrzej Warzyński///     %0 = some_op
*cbd72cb0SAndrzej Warzyński///     %1 = vector.shape_cast %0 : vector<[4]xf32> to vector<1x[4]xf32>
*cbd72cb0SAndrzej Warzyński///
*cbd72cb0SAndrzej Warzyński/// Given the context above, we may want to consider (re-)moving this pattern
*cbd72cb0SAndrzej Warzyński/// at some later time. I am leaving it for now in case there are other users
*cbd72cb0SAndrzej Warzyński/// that I am not aware of.
*cbd72cb0SAndrzej Warzyńskiclass Transpose2DWithUnitDimToShapeCast
*cbd72cb0SAndrzej Warzyński    : public OpRewritePattern<vector::TransposeOp> {
*cbd72cb0SAndrzej Warzyńskipublic:
*cbd72cb0SAndrzej Warzyński  using OpRewritePattern::OpRewritePattern;
*cbd72cb0SAndrzej Warzyński
*cbd72cb0SAndrzej Warzyński  Transpose2DWithUnitDimToShapeCast(MLIRContext *context,
*cbd72cb0SAndrzej Warzyński                                    PatternBenefit benefit = 1)
*cbd72cb0SAndrzej Warzyński      : OpRewritePattern<vector::TransposeOp>(context, benefit) {}
*cbd72cb0SAndrzej Warzyński
*cbd72cb0SAndrzej Warzyński  LogicalResult matchAndRewrite(vector::TransposeOp op,
*cbd72cb0SAndrzej Warzyński                                PatternRewriter &rewriter) const override {
*cbd72cb0SAndrzej Warzyński    Value input = op.getVector();
*cbd72cb0SAndrzej Warzyński    VectorType resType = op.getResultVectorType();
*cbd72cb0SAndrzej Warzyński
*cbd72cb0SAndrzej Warzyński    // Set up convenience transposition table.
*cbd72cb0SAndrzej Warzyński    ArrayRef<int64_t> transp = op.getPermutation();
*cbd72cb0SAndrzej Warzyński
*cbd72cb0SAndrzej Warzyński    if (resType.getRank() == 2 &&
*cbd72cb0SAndrzej Warzyński        ((resType.getShape().front() == 1 &&
*cbd72cb0SAndrzej Warzyński          !resType.getScalableDims().front()) ||
*cbd72cb0SAndrzej Warzyński         (resType.getShape().back() == 1 &&
*cbd72cb0SAndrzej Warzyński          !resType.getScalableDims().back())) &&
*cbd72cb0SAndrzej Warzyński        transp == ArrayRef<int64_t>({1, 0})) {
*cbd72cb0SAndrzej Warzyński      rewriter.replaceOpWithNewOp<vector::ShapeCastOp>(op, resType, input);
*cbd72cb0SAndrzej Warzyński      return success();
*cbd72cb0SAndrzej Warzyński    }
*cbd72cb0SAndrzej Warzyński
*cbd72cb0SAndrzej Warzyński    return failure();
*cbd72cb0SAndrzej Warzyński  }
*cbd72cb0SAndrzej Warzyński};
*cbd72cb0SAndrzej Warzyński
8d163e50SHanhan Wang/// Rewrite a 2-D vector.transpose as a sequence of shuffle ops.
8d163e50SHanhan Wang/// If the strategy is Shuffle1D, it will be lowered to:
2bc4c3e9SNicolas Vasilache///   vector.shape_cast 2D -> 1D
2bc4c3e9SNicolas Vasilache///   vector.shuffle
2bc4c3e9SNicolas Vasilache///   vector.shape_cast 1D -> 2D
8d163e50SHanhan Wang/// If the strategy is Shuffle16x16, it will be lowered to a sequence of shuffle
8d163e50SHanhan Wang/// ops on 16xf32 vectors.
2bc4c3e9SNicolas Vasilacheclass TransposeOp2DToShuffleLowering
2bc4c3e9SNicolas Vasilache    : public OpRewritePattern<vector::TransposeOp> {
2bc4c3e9SNicolas Vasilachepublic:
2bc4c3e9SNicolas Vasilache  using OpRewritePattern::OpRewritePattern;
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache  TransposeOp2DToShuffleLowering(
2bc4c3e9SNicolas Vasilache      vector::VectorTransformsOptions vectorTransformOptions,
2bc4c3e9SNicolas Vasilache      MLIRContext *context, PatternBenefit benefit = 1)
2bc4c3e9SNicolas Vasilache      : OpRewritePattern<vector::TransposeOp>(context, benefit),
2bc4c3e9SNicolas Vasilache        vectorTransformOptions(vectorTransformOptions) {}
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache  LogicalResult matchAndRewrite(vector::TransposeOp op,
2bc4c3e9SNicolas Vasilache                                PatternRewriter &rewriter) const override {
25cc5a71SHanhan Wang    if (!isShuffleLike(vectorTransformOptions.vectorTransposeLowering))
25cc5a71SHanhan Wang      return rewriter.notifyMatchFailure(
25cc5a71SHanhan Wang          op, "not using vector shuffle based lowering");
25cc5a71SHanhan Wang
88610b79SBenjamin Maxwell    if (op.getSourceVectorType().isScalable())
88610b79SBenjamin Maxwell      return rewriter.notifyMatchFailure(
88610b79SBenjamin Maxwell          op, "vector shuffle lowering not supported for scalable vectors");
88610b79SBenjamin Maxwell
25cc5a71SHanhan Wang    auto srcGtOneDims = isTranspose2DSlice(op);
25cc5a71SHanhan Wang    if (failed(srcGtOneDims))
25cc5a71SHanhan Wang      return rewriter.notifyMatchFailure(
25cc5a71SHanhan Wang          op, "expected transposition on a 2D slice");
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    VectorType srcType = op.getSourceVectorType();
25cc5a71SHanhan Wang    int64_t m = srcType.getDimSize(std::get<0>(srcGtOneDims.value()));
25cc5a71SHanhan Wang    int64_t n = srcType.getDimSize(std::get<1>(srcGtOneDims.value()));
2bc4c3e9SNicolas Vasilache
25cc5a71SHanhan Wang    // Reshape the n-D input vector with only two dimensions greater than one
25cc5a71SHanhan Wang    // to a 2-D vector.
25cc5a71SHanhan Wang    Location loc = op.getLoc();
25cc5a71SHanhan Wang    auto flattenedType = VectorType::get({n * m}, srcType.getElementType());
25cc5a71SHanhan Wang    auto reshInputType = VectorType::get({m, n}, srcType.getElementType());
25cc5a71SHanhan Wang    auto reshInput = rewriter.create<vector::ShapeCastOp>(loc, flattenedType,
25cc5a71SHanhan Wang                                                          op.getVector());
2bc4c3e9SNicolas Vasilache
8d163e50SHanhan Wang    Value res;
25cc5a71SHanhan Wang    if (vectorTransformOptions.vectorTransposeLowering ==
25cc5a71SHanhan Wang            VectorTransposeLowering::Shuffle16x16 &&
25cc5a71SHanhan Wang        m == 16 && n == 16) {
25cc5a71SHanhan Wang      reshInput =
25cc5a71SHanhan Wang          rewriter.create<vector::ShapeCastOp>(loc, reshInputType, reshInput);
25cc5a71SHanhan Wang      res = transposeToShuffle16x16(rewriter, reshInput, m, n);
25cc5a71SHanhan Wang    } else {
25cc5a71SHanhan Wang      // Fallback to shuffle on 1D approach.
25cc5a71SHanhan Wang      res = transposeToShuffle1D(rewriter, reshInput, m, n);
8d163e50SHanhan Wang    }
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    rewriter.replaceOpWithNewOp<vector::ShapeCastOp>(
8d163e50SHanhan Wang        op, op.getResultVectorType(), res);
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilache    return success();
2bc4c3e9SNicolas Vasilache  }
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilacheprivate:
2bc4c3e9SNicolas Vasilache  /// Options to control the vector patterns.
2bc4c3e9SNicolas Vasilache  vector::VectorTransformsOptions vectorTransformOptions;
2bc4c3e9SNicolas Vasilache};
2bc4c3e9SNicolas Vasilache} // namespace
2bc4c3e9SNicolas Vasilache
2bc4c3e9SNicolas Vasilachevoid mlir::vector::populateVectorTransposeLoweringPatterns(
2bc4c3e9SNicolas Vasilache    RewritePatternSet &patterns, VectorTransformsOptions options,
2bc4c3e9SNicolas Vasilache    PatternBenefit benefit) {
*cbd72cb0SAndrzej Warzyński  patterns.add<Transpose2DWithUnitDimToShapeCast>(patterns.getContext(),
*cbd72cb0SAndrzej Warzyński                                                  benefit);
2bc4c3e9SNicolas Vasilache  patterns.add<TransposeOpLowering, TransposeOp2DToShuffleLowering>(
2bc4c3e9SNicolas Vasilache      options, patterns.getContext(), benefit);
2bc4c3e9SNicolas Vasilache}