SparseTensor/Transforms/SparseVectorization.cpp

99b3849dSAart Bik//===- SparseVectorization.cpp - Vectorization of sparsified loops --------===//
99b3849dSAart Bik//
99b3849dSAart Bik// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
99b3849dSAart Bik// See https://llvm.org/LICENSE.txt for license information.
99b3849dSAart Bik// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
99b3849dSAart Bik//
99b3849dSAart Bik//===----------------------------------------------------------------------===//
99b3849dSAart Bik//
c43e6274STim Harvey// A pass that converts loops generated by the sparsifier into a form that
99b3849dSAart Bik// can exploit SIMD instructions of the target architecture. Note that this pass
c43e6274STim Harvey// ensures the sparsifier can generate efficient SIMD (including ArmSVE
99b3849dSAart Bik// support) with proper separation of concerns as far as sparsification and
99b3849dSAart Bik// vectorization is concerned. However, this pass is not the final abstraction
99b3849dSAart Bik// level we want, and not the general vectorizer we want either. It forms a good
99b3849dSAart Bik// stepping stone for incremental future improvements though.
99b3849dSAart Bik//
99b3849dSAart Bik//===----------------------------------------------------------------------===//
99b3849dSAart Bik
365777ecSAart Bik#include "Utils/CodegenUtils.h"
365777ecSAart Bik#include "Utils/LoopEmitter.h"
99b3849dSAart Bik
99b3849dSAart Bik#include "mlir/Dialect/Affine/IR/AffineOps.h"
99b3849dSAart Bik#include "mlir/Dialect/Arith/IR/Arith.h"
99b3849dSAart Bik#include "mlir/Dialect/Complex/IR/Complex.h"
99b3849dSAart Bik#include "mlir/Dialect/Math/IR/Math.h"
99b3849dSAart Bik#include "mlir/Dialect/MemRef/IR/MemRef.h"
99b3849dSAart Bik#include "mlir/Dialect/SCF/IR/SCF.h"
99b3849dSAart Bik#include "mlir/Dialect/SparseTensor/Transforms/Passes.h"
99b3849dSAart Bik#include "mlir/Dialect/Vector/IR/VectorOps.h"
*a6e72f93SManupa Karunaratne#include "mlir/Dialect/Vector/Transforms/LoweringPatterns.h"
99b3849dSAart Bik#include "mlir/IR/Matchers.h"
99b3849dSAart Bik
99b3849dSAart Bikusing namespace mlir;
99b3849dSAart Bikusing namespace mlir::sparse_tensor;
99b3849dSAart Bik
99b3849dSAart Biknamespace {
99b3849dSAart Bik
99b3849dSAart Bik/// Target SIMD properties:
99b3849dSAart Bik///   vectorLength: # packed data elements (viz. vector<16xf32> has length 16)
99b3849dSAart Bik///   enableVLAVectorization: enables scalable vectors (viz. ARMSve)
99b3849dSAart Bik///   enableSIMDIndex32: uses 32-bit indices in gather/scatter for efficiency
99b3849dSAart Bikstruct VL {
99b3849dSAart Bik  unsigned vectorLength;
99b3849dSAart Bik  bool enableVLAVectorization;
99b3849dSAart Bik  bool enableSIMDIndex32;
99b3849dSAart Bik};
99b3849dSAart Bik
431f6a54SAart Bik/// Helper test for invariant value (defined outside given block).
431f6a54SAart Bikstatic bool isInvariantValue(Value val, Block *block) {
431f6a54SAart Bik  return val.getDefiningOp() && val.getDefiningOp()->getBlock() != block;
431f6a54SAart Bik}
431f6a54SAart Bik
431f6a54SAart Bik/// Helper test for invariant argument (defined outside given block).
431f6a54SAart Bikstatic bool isInvariantArg(BlockArgument arg, Block *block) {
431f6a54SAart Bik  return arg.getOwner() != block;
431f6a54SAart Bik}
431f6a54SAart Bik
99b3849dSAart Bik/// Constructs vector type for element type.
99b3849dSAart Bikstatic VectorType vectorType(VL vl, Type etp) {
f22af204SAndrzej Warzynski  return VectorType::get(vl.vectorLength, etp, vl.enableVLAVectorization);
99b3849dSAart Bik}
99b3849dSAart Bik
84cd51bbSwren romano/// Constructs vector type from a memref value.
84cd51bbSwren romanostatic VectorType vectorType(VL vl, Value mem) {
84cd51bbSwren romano  return vectorType(vl, getMemRefType(mem).getElementType());
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik/// Constructs vector iteration mask.
99b3849dSAart Bikstatic Value genVectorMask(PatternRewriter &rewriter, Location loc, VL vl,
99b3849dSAart Bik                           Value iv, Value lo, Value hi, Value step) {
99b3849dSAart Bik  VectorType mtp = vectorType(vl, rewriter.getI1Type());
99b3849dSAart Bik  // Special case if the vector length evenly divides the trip count (for
99b3849dSAart Bik  // example, "for i = 0, 128, 16"). A constant all-true mask is generated
99b3849dSAart Bik  // so that all subsequent masked memory operations are immediately folded
99b3849dSAart Bik  // into unconditional memory operations.
99b3849dSAart Bik  IntegerAttr loInt, hiInt, stepInt;
99b3849dSAart Bik  if (matchPattern(lo, m_Constant(&loInt)) &&
99b3849dSAart Bik      matchPattern(hi, m_Constant(&hiInt)) &&
99b3849dSAart Bik      matchPattern(step, m_Constant(&stepInt))) {
99b3849dSAart Bik    if (((hiInt.getInt() - loInt.getInt()) % stepInt.getInt()) == 0) {
99b3849dSAart Bik      Value trueVal = constantI1(rewriter, loc, true);
99b3849dSAart Bik      return rewriter.create<vector::BroadcastOp>(loc, mtp, trueVal);
99b3849dSAart Bik    }
99b3849dSAart Bik  }
99b3849dSAart Bik  // Otherwise, generate a vector mask that avoids overrunning the upperbound
99b3849dSAart Bik  // during vector execution. Here we rely on subsequent loop optimizations to
99b3849dSAart Bik  // avoid executing the mask in all iterations, for example, by splitting the
99b3849dSAart Bik  // loop into an unconditional vector loop and a scalar cleanup loop.
99b3849dSAart Bik  auto min = AffineMap::get(
99b3849dSAart Bik      /*dimCount=*/2, /*symbolCount=*/1,
99b3849dSAart Bik      {rewriter.getAffineSymbolExpr(0),
99b3849dSAart Bik       rewriter.getAffineDimExpr(0) - rewriter.getAffineDimExpr(1)},
99b3849dSAart Bik      rewriter.getContext());
4c48f016SMatthias Springer  Value end = rewriter.createOrFold<affine::AffineMinOp>(
4c48f016SMatthias Springer      loc, min, ValueRange{hi, iv, step});
99b3849dSAart Bik  return rewriter.create<vector::CreateMaskOp>(loc, mtp, end);
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik/// Generates a vectorized invariant. Here we rely on subsequent loop
99b3849dSAart Bik/// optimizations to hoist the invariant broadcast out of the vector loop.
99b3849dSAart Bikstatic Value genVectorInvariantValue(PatternRewriter &rewriter, VL vl,
99b3849dSAart Bik                                     Value val) {
99b3849dSAart Bik  VectorType vtp = vectorType(vl, val.getType());
99b3849dSAart Bik  return rewriter.create<vector::BroadcastOp>(val.getLoc(), vtp, val);
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik/// Generates a vectorized load lhs = a[ind[lo:hi]] or lhs = a[lo:hi],
cb82d375SAart Bik/// where 'lo' denotes the current index and 'hi = lo + vl - 1'. Note
c43e6274STim Harvey/// that the sparsifier can only generate indirect loads in
cb82d375SAart Bik/// the last index, i.e. back().
99b3849dSAart Bikstatic Value genVectorLoad(PatternRewriter &rewriter, Location loc, VL vl,
84cd51bbSwren romano                           Value mem, ArrayRef<Value> idxs, Value vmask) {
84cd51bbSwren romano  VectorType vtp = vectorType(vl, mem);
99b3849dSAart Bik  Value pass = constantZero(rewriter, loc, vtp);
c1fa60b4STres Popp  if (llvm::isa<VectorType>(idxs.back().getType())) {
5262865aSKazu Hirata    SmallVector<Value> scalarArgs(idxs);
99b3849dSAart Bik    Value indexVec = idxs.back();
99b3849dSAart Bik    scalarArgs.back() = constantIndex(rewriter, loc, 0);
84cd51bbSwren romano    return rewriter.create<vector::GatherOp>(loc, vtp, mem, scalarArgs,
99b3849dSAart Bik                                             indexVec, vmask, pass);
99b3849dSAart Bik  }
84cd51bbSwren romano  return rewriter.create<vector::MaskedLoadOp>(loc, vtp, mem, idxs, vmask,
99b3849dSAart Bik                                               pass);
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik/// Generates a vectorized store a[ind[lo:hi]] = rhs or a[lo:hi] = rhs
cb82d375SAart Bik/// where 'lo' denotes the current index and 'hi = lo + vl - 1'. Note
c43e6274STim Harvey/// that the sparsifier can only generate indirect stores in
cb82d375SAart Bik/// the last index, i.e. back().
84cd51bbSwren romanostatic void genVectorStore(PatternRewriter &rewriter, Location loc, Value mem,
99b3849dSAart Bik                           ArrayRef<Value> idxs, Value vmask, Value rhs) {
c1fa60b4STres Popp  if (llvm::isa<VectorType>(idxs.back().getType())) {
5262865aSKazu Hirata    SmallVector<Value> scalarArgs(idxs);
99b3849dSAart Bik    Value indexVec = idxs.back();
99b3849dSAart Bik    scalarArgs.back() = constantIndex(rewriter, loc, 0);
84cd51bbSwren romano    rewriter.create<vector::ScatterOp>(loc, mem, scalarArgs, indexVec, vmask,
99b3849dSAart Bik                                       rhs);
99b3849dSAart Bik    return;
99b3849dSAart Bik  }
84cd51bbSwren romano  rewriter.create<vector::MaskedStoreOp>(loc, mem, idxs, vmask, rhs);
99b3849dSAart Bik}
99b3849dSAart Bik
cb82d375SAart Bik/// Detects a vectorizable reduction operations and returns the
cb82d375SAart Bik/// combining kind of reduction on success in `kind`.
cb82d375SAart Bikstatic bool isVectorizableReduction(Value red, Value iter,
cb82d375SAart Bik                                    vector::CombiningKind &kind) {
cb82d375SAart Bik  if (auto addf = red.getDefiningOp<arith::AddFOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::ADD;
cb82d375SAart Bik    return addf->getOperand(0) == iter || addf->getOperand(1) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto addi = red.getDefiningOp<arith::AddIOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::ADD;
cb82d375SAart Bik    return addi->getOperand(0) == iter || addi->getOperand(1) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto subf = red.getDefiningOp<arith::SubFOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::ADD;
cb82d375SAart Bik    return subf->getOperand(0) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto subi = red.getDefiningOp<arith::SubIOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::ADD;
cb82d375SAart Bik    return subi->getOperand(0) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto mulf = red.getDefiningOp<arith::MulFOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::MUL;
cb82d375SAart Bik    return mulf->getOperand(0) == iter || mulf->getOperand(1) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto muli = red.getDefiningOp<arith::MulIOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::MUL;
cb82d375SAart Bik    return muli->getOperand(0) == iter || muli->getOperand(1) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto andi = red.getDefiningOp<arith::AndIOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::AND;
cb82d375SAart Bik    return andi->getOperand(0) == iter || andi->getOperand(1) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto ori = red.getDefiningOp<arith::OrIOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::OR;
cb82d375SAart Bik    return ori->getOperand(0) == iter || ori->getOperand(1) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  if (auto xori = red.getDefiningOp<arith::XOrIOp>()) {
cb82d375SAart Bik    kind = vector::CombiningKind::XOR;
cb82d375SAart Bik    return xori->getOperand(0) == iter || xori->getOperand(1) == iter;
cb82d375SAart Bik  }
cb82d375SAart Bik  return false;
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik/// Generates an initial value for a vector reduction, following the scheme
99b3849dSAart Bik/// given in Chapter 5 of "The Software Vectorization Handbook", where the
99b3849dSAart Bik/// initial scalar value is correctly embedded in the vector reduction value,
99b3849dSAart Bik/// and a straightforward horizontal reduction will complete the operation.
cb82d375SAart Bik/// Value 'r' denotes the initial value of the reduction outside the loop.
99b3849dSAart Bikstatic Value genVectorReducInit(PatternRewriter &rewriter, Location loc,
cb82d375SAart Bik                                Value red, Value iter, Value r,
cb82d375SAart Bik                                VectorType vtp) {
cb82d375SAart Bik  vector::CombiningKind kind;
cb82d375SAart Bik  if (!isVectorizableReduction(red, iter, kind))
cb82d375SAart Bik    llvm_unreachable("unknown reduction");
99b3849dSAart Bik  switch (kind) {
99b3849dSAart Bik  case vector::CombiningKind::ADD:
99b3849dSAart Bik  case vector::CombiningKind::XOR:
99b3849dSAart Bik    // Initialize reduction vector to: | 0 | .. | 0 | r |
99b3849dSAart Bik    return rewriter.create<vector::InsertElementOp>(
99b3849dSAart Bik        loc, r, constantZero(rewriter, loc, vtp),
99b3849dSAart Bik        constantIndex(rewriter, loc, 0));
99b3849dSAart Bik  case vector::CombiningKind::MUL:
99b3849dSAart Bik    // Initialize reduction vector to: | 1 | .. | 1 | r |
99b3849dSAart Bik    return rewriter.create<vector::InsertElementOp>(
99b3849dSAart Bik        loc, r, constantOne(rewriter, loc, vtp),
99b3849dSAart Bik        constantIndex(rewriter, loc, 0));
99b3849dSAart Bik  case vector::CombiningKind::AND:
99b3849dSAart Bik  case vector::CombiningKind::OR:
99b3849dSAart Bik    // Initialize reduction vector to: | r | .. | r | r |
99b3849dSAart Bik    return rewriter.create<vector::BroadcastOp>(loc, vtp, r);
99b3849dSAart Bik  default:
99b3849dSAart Bik    break;
99b3849dSAart Bik  }
99b3849dSAart Bik  llvm_unreachable("unknown reduction kind");
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik/// This method is called twice to analyze and rewrite the given subscripts.
99b3849dSAart Bik/// The first call (!codegen) does the analysis. Then, on success, the second
99b3849dSAart Bik/// call (codegen) yields the proper vector form in the output parameter
99b3849dSAart Bik/// vector 'idxs'. This mechanism ensures that analysis and rewriting code
c43e6274STim Harvey/// stay in sync. Note that the analyis part is simple because the sparsifier
c43e6274STim Harvey/// only generates relatively simple subscript expressions.
99b3849dSAart Bik///
99b3849dSAart Bik/// See https://llvm.org/docs/GetElementPtr.html for some background on
99b3849dSAart Bik/// the complications described below.
99b3849dSAart Bik///
84cd51bbSwren romano/// We need to generate a position/coordinate load from the sparse storage
84cd51bbSwren romano/// scheme.  Narrower data types need to be zero extended before casting
84cd51bbSwren romano/// the value into the `index` type used for looping and indexing.
99b3849dSAart Bik///
99b3849dSAart Bik/// For the scalar case, subscripts simply zero extend narrower indices
99b3849dSAart Bik/// into 64-bit values before casting to an index type without a performance
99b3849dSAart Bik/// penalty. Indices that already are 64-bit, in theory, cannot express the
99b3849dSAart Bik/// full range since the LLVM backend defines addressing in terms of an
99b3849dSAart Bik/// unsigned pointer/signed index pair.
99b3849dSAart Bikstatic bool vectorizeSubscripts(PatternRewriter &rewriter, scf::ForOp forOp,
99b3849dSAart Bik                                VL vl, ValueRange subs, bool codegen,
99b3849dSAart Bik                                Value vmask, SmallVectorImpl<Value> &idxs) {
70ac5981SAart Bik  unsigned d = 0;
70ac5981SAart Bik  unsigned dim = subs.size();
431f6a54SAart Bik  Block *block = &forOp.getRegion().front();
99b3849dSAart Bik  for (auto sub : subs) {
70ac5981SAart Bik    bool innermost = ++d == dim;
70ac5981SAart Bik    // Invariant subscripts in outer dimensions simply pass through.
70ac5981SAart Bik    // Note that we rely on LICM to hoist loads where all subscripts
70ac5981SAart Bik    // are invariant in the innermost loop.
431f6a54SAart Bik    // Example:
431f6a54SAart Bik    //   a[inv][i] for inv
431f6a54SAart Bik    if (isInvariantValue(sub, block)) {
70ac5981SAart Bik      if (innermost)
70ac5981SAart Bik        return false;
70ac5981SAart Bik      if (codegen)
70ac5981SAart Bik        idxs.push_back(sub);
70ac5981SAart Bik      continue; // success so far
70ac5981SAart Bik    }
70ac5981SAart Bik    // Invariant block arguments (including outer loop indices) in outer
70ac5981SAart Bik    // dimensions simply pass through. Direct loop indices in the
70ac5981SAart Bik    // innermost loop simply pass through as well.
431f6a54SAart Bik    // Example:
431f6a54SAart Bik    //   a[i][j] for both i and j
c1fa60b4STres Popp    if (auto arg = llvm::dyn_cast<BlockArgument>(sub)) {
431f6a54SAart Bik      if (isInvariantArg(arg, block) == innermost)
70ac5981SAart Bik        return false;
99b3849dSAart Bik      if (codegen)
99b3849dSAart Bik        idxs.push_back(sub);
99b3849dSAart Bik      continue; // success so far
99b3849dSAart Bik    }
99b3849dSAart Bik    // Look under the hood of casting.
99b3849dSAart Bik    auto cast = sub;
f083c9bdSAdrian Kuegel    while (true) {
99b3849dSAart Bik      if (auto icast = cast.getDefiningOp<arith::IndexCastOp>())
99b3849dSAart Bik        cast = icast->getOperand(0);
99b3849dSAart Bik      else if (auto ecast = cast.getDefiningOp<arith::ExtUIOp>())
99b3849dSAart Bik        cast = ecast->getOperand(0);
99b3849dSAart Bik      else
99b3849dSAart Bik        break;
99b3849dSAart Bik    }
99b3849dSAart Bik    // Since the index vector is used in a subsequent gather/scatter
99b3849dSAart Bik    // operations, which effectively defines an unsigned pointer + signed
99b3849dSAart Bik    // index, we must zero extend the vector to an index width. For 8-bit
99b3849dSAart Bik    // and 16-bit values, an 32-bit index width suffices. For 32-bit values,
99b3849dSAart Bik    // zero extending the elements into 64-bit loses some performance since
99b3849dSAart Bik    // the 32-bit indexed gather/scatter is more efficient than the 64-bit
99b3849dSAart Bik    // index variant (if the negative 32-bit index space is unused, the
99b3849dSAart Bik    // enableSIMDIndex32 flag can preserve this performance). For 64-bit
99b3849dSAart Bik    // values, there is no good way to state that the indices are unsigned,
99b3849dSAart Bik    // which creates the potential of incorrect address calculations in the
99b3849dSAart Bik    // unlikely case we need such extremely large offsets.
431f6a54SAart Bik    // Example:
431f6a54SAart Bik    //    a[ ind[i] ]
99b3849dSAart Bik    if (auto load = cast.getDefiningOp<memref::LoadOp>()) {
70ac5981SAart Bik      if (!innermost)
70ac5981SAart Bik        return false;
99b3849dSAart Bik      if (codegen) {
99b3849dSAart Bik        SmallVector<Value> idxs2(load.getIndices()); // no need to analyze
99b3849dSAart Bik        Location loc = forOp.getLoc();
99b3849dSAart Bik        Value vload =
99b3849dSAart Bik            genVectorLoad(rewriter, loc, vl, load.getMemRef(), idxs2, vmask);
c1fa60b4STres Popp        Type etp = llvm::cast<VectorType>(vload.getType()).getElementType();
c1fa60b4STres Popp        if (!llvm::isa<IndexType>(etp)) {
99b3849dSAart Bik          if (etp.getIntOrFloatBitWidth() < 32)
99b3849dSAart Bik            vload = rewriter.create<arith::ExtUIOp>(
99b3849dSAart Bik                loc, vectorType(vl, rewriter.getI32Type()), vload);
99b3849dSAart Bik          else if (etp.getIntOrFloatBitWidth() < 64 && !vl.enableSIMDIndex32)
99b3849dSAart Bik            vload = rewriter.create<arith::ExtUIOp>(
99b3849dSAart Bik                loc, vectorType(vl, rewriter.getI64Type()), vload);
99b3849dSAart Bik        }
99b3849dSAart Bik        idxs.push_back(vload);
99b3849dSAart Bik      }
99b3849dSAart Bik      continue; // success so far
99b3849dSAart Bik    }
16aa4e4bSAart Bik    // Address calculation 'i = add inv, idx' (after LICM).
431f6a54SAart Bik    // Example:
431f6a54SAart Bik    //    a[base + i]
16aa4e4bSAart Bik    if (auto load = cast.getDefiningOp<arith::AddIOp>()) {
16aa4e4bSAart Bik      Value inv = load.getOperand(0);
16aa4e4bSAart Bik      Value idx = load.getOperand(1);
5a9af39aSAart Bik      // Swap non-invariant.
5a9af39aSAart Bik      if (!isInvariantValue(inv, block)) {
5a9af39aSAart Bik        inv = idx;
5a9af39aSAart Bik        idx = load.getOperand(0);
5a9af39aSAart Bik      }
5a9af39aSAart Bik      // Inspect.
431f6a54SAart Bik      if (isInvariantValue(inv, block)) {
c1fa60b4STres Popp        if (auto arg = llvm::dyn_cast<BlockArgument>(idx)) {
431f6a54SAart Bik          if (isInvariantArg(arg, block) || !innermost)
70ac5981SAart Bik            return false;
16aa4e4bSAart Bik          if (codegen)
16aa4e4bSAart Bik            idxs.push_back(
16aa4e4bSAart Bik                rewriter.create<arith::AddIOp>(forOp.getLoc(), inv, idx));
16aa4e4bSAart Bik          continue; // success so far
16aa4e4bSAart Bik        }
16aa4e4bSAart Bik      }
431f6a54SAart Bik    }
99b3849dSAart Bik    return false;
99b3849dSAart Bik  }
99b3849dSAart Bik  return true;
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik#define UNAOP(xxx)                                                             \
99b3849dSAart Bik  if (isa<xxx>(def)) {                                                         \
99b3849dSAart Bik    if (codegen)                                                               \
99b3849dSAart Bik      vexp = rewriter.create<xxx>(loc, vx);                                    \
99b3849dSAart Bik    return true;                                                               \
99b3849dSAart Bik  }
99b3849dSAart Bik
2fda6207SAart Bik#define TYPEDUNAOP(xxx)                                                        \
2fda6207SAart Bik  if (auto x = dyn_cast<xxx>(def)) {                                           \
2fda6207SAart Bik    if (codegen) {                                                             \
2fda6207SAart Bik      VectorType vtp = vectorType(vl, x.getType());                            \
2fda6207SAart Bik      vexp = rewriter.create<xxx>(loc, vtp, vx);                               \
2fda6207SAart Bik    }                                                                          \
2fda6207SAart Bik    return true;                                                               \
2fda6207SAart Bik  }
2fda6207SAart Bik
99b3849dSAart Bik#define BINOP(xxx)                                                             \
99b3849dSAart Bik  if (isa<xxx>(def)) {                                                         \
99b3849dSAart Bik    if (codegen)                                                               \
99b3849dSAart Bik      vexp = rewriter.create<xxx>(loc, vx, vy);                                \
99b3849dSAart Bik    return true;                                                               \
99b3849dSAart Bik  }
99b3849dSAart Bik
99b3849dSAart Bik/// This method is called twice to analyze and rewrite the given expression.
99b3849dSAart Bik/// The first call (!codegen) does the analysis. Then, on success, the second
99b3849dSAart Bik/// call (codegen) yields the proper vector form in the output parameter 'vexp'.
2fda6207SAart Bik/// This mechanism ensures that analysis and rewriting code stay in sync. Note
c43e6274STim Harvey/// that the analyis part is simple because the sparsifier only generates
2fda6207SAart Bik/// relatively simple expressions inside the for-loops.
99b3849dSAart Bikstatic bool vectorizeExpr(PatternRewriter &rewriter, scf::ForOp forOp, VL vl,
99b3849dSAart Bik                          Value exp, bool codegen, Value vmask, Value &vexp) {
2fda6207SAart Bik  Location loc = forOp.getLoc();
2fda6207SAart Bik  // Reject unsupported types.
2fda6207SAart Bik  if (!VectorType::isValidElementType(exp.getType()))
2fda6207SAart Bik    return false;
2fda6207SAart Bik  // A block argument is invariant/reduction/index.
c1fa60b4STres Popp  if (auto arg = llvm::dyn_cast<BlockArgument>(exp)) {
2fda6207SAart Bik    if (arg == forOp.getInductionVar()) {
2fda6207SAart Bik      // We encountered a single, innermost index inside the computation,
2fda6207SAart Bik      // such as a[i] = i, which must convert to [i, i+1, ...].
2fda6207SAart Bik      if (codegen) {
2fda6207SAart Bik        VectorType vtp = vectorType(vl, arg.getType());
2fda6207SAart Bik        Value veci = rewriter.create<vector::BroadcastOp>(loc, vtp, arg);
074414fdSCullen Rhodes        Value incr = rewriter.create<vector::StepOp>(loc, vtp);
2fda6207SAart Bik        vexp = rewriter.create<arith::AddIOp>(loc, veci, incr);
2fda6207SAart Bik      }
2fda6207SAart Bik      return true;
3ab00672SAart Bik    }
3ab00672SAart Bik    // An invariant or reduction. In both cases, we treat this as an
2fda6207SAart Bik    // invariant value, and rely on later replacing and folding to
2fda6207SAart Bik    // construct a proper reduction chain for the latter case.
99b3849dSAart Bik    if (codegen)
99b3849dSAart Bik      vexp = genVectorInvariantValue(rewriter, vl, exp);
99b3849dSAart Bik    return true;
99b3849dSAart Bik  }
2fda6207SAart Bik  // Something defined outside the loop-body is invariant.
99b3849dSAart Bik  Operation *def = exp.getDefiningOp();
431f6a54SAart Bik  Block *block = &forOp.getRegion().front();
431f6a54SAart Bik  if (def->getBlock() != block) {
99b3849dSAart Bik    if (codegen)
99b3849dSAart Bik      vexp = genVectorInvariantValue(rewriter, vl, exp);
99b3849dSAart Bik    return true;
99b3849dSAart Bik  }
2fda6207SAart Bik  // Proper load operations. These are either values involved in the
2fda6207SAart Bik  // actual computation, such as a[i] = b[i] becomes a[lo:hi] = b[lo:hi],
84cd51bbSwren romano  // or coordinate values inside the computation that are now fetched from
84cd51bbSwren romano  // the sparse storage coordinates arrays, such as a[i] = i becomes
2fda6207SAart Bik  // a[lo:hi] = ind[lo:hi], where 'lo' denotes the current index
2fda6207SAart Bik  // and 'hi = lo + vl - 1'.
99b3849dSAart Bik  if (auto load = dyn_cast<memref::LoadOp>(def)) {
99b3849dSAart Bik    auto subs = load.getIndices();
99b3849dSAart Bik    SmallVector<Value> idxs;
99b3849dSAart Bik    if (vectorizeSubscripts(rewriter, forOp, vl, subs, codegen, vmask, idxs)) {
99b3849dSAart Bik      if (codegen)
99b3849dSAart Bik        vexp = genVectorLoad(rewriter, loc, vl, load.getMemRef(), idxs, vmask);
99b3849dSAart Bik      return true;
99b3849dSAart Bik    }
2fda6207SAart Bik    return false;
2fda6207SAart Bik  }
2fda6207SAart Bik  // Inside loop-body unary and binary operations. Note that it would be
2fda6207SAart Bik  // nicer if we could somehow test and build the operations in a more
2fda6207SAart Bik  // concise manner than just listing them all (although this way we know
2fda6207SAart Bik  // for certain that they can vectorize).
2fda6207SAart Bik  //
2fda6207SAart Bik  // TODO: avoid visiting CSEs multiple times
2fda6207SAart Bik  //
2fda6207SAart Bik  if (def->getNumOperands() == 1) {
99b3849dSAart Bik    Value vx;
99b3849dSAart Bik    if (vectorizeExpr(rewriter, forOp, vl, def->getOperand(0), codegen, vmask,
99b3849dSAart Bik                      vx)) {
99b3849dSAart Bik      UNAOP(math::AbsFOp)
99b3849dSAart Bik      UNAOP(math::AbsIOp)
99b3849dSAart Bik      UNAOP(math::CeilOp)
99b3849dSAart Bik      UNAOP(math::FloorOp)
99b3849dSAart Bik      UNAOP(math::SqrtOp)
99b3849dSAart Bik      UNAOP(math::ExpM1Op)
99b3849dSAart Bik      UNAOP(math::Log1pOp)
99b3849dSAart Bik      UNAOP(math::SinOp)
99b3849dSAart Bik      UNAOP(math::TanhOp)
99b3849dSAart Bik      UNAOP(arith::NegFOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::TruncFOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::ExtFOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::FPToSIOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::FPToUIOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::SIToFPOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::UIToFPOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::ExtSIOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::ExtUIOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::IndexCastOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::TruncIOp)
2fda6207SAart Bik      TYPEDUNAOP(arith::BitcastOp)
16aa4e4bSAart Bik      // TODO: complex?
99b3849dSAart Bik    }
99b3849dSAart Bik  } else if (def->getNumOperands() == 2) {
99b3849dSAart Bik    Value vx, vy;
99b3849dSAart Bik    if (vectorizeExpr(rewriter, forOp, vl, def->getOperand(0), codegen, vmask,
99b3849dSAart Bik                      vx) &&
99b3849dSAart Bik        vectorizeExpr(rewriter, forOp, vl, def->getOperand(1), codegen, vmask,
99b3849dSAart Bik                      vy)) {
431f6a54SAart Bik      // We only accept shift-by-invariant (where the same shift factor applies
431f6a54SAart Bik      // to all packed elements). In the vector dialect, this is still
431f6a54SAart Bik      // represented with an expanded vector at the right-hand-side, however,
431f6a54SAart Bik      // so that we do not have to special case the code generation.
431f6a54SAart Bik      if (isa<arith::ShLIOp>(def) || isa<arith::ShRUIOp>(def) ||
431f6a54SAart Bik          isa<arith::ShRSIOp>(def)) {
431f6a54SAart Bik        Value shiftFactor = def->getOperand(1);
431f6a54SAart Bik        if (!isInvariantValue(shiftFactor, block))
431f6a54SAart Bik          return false;
431f6a54SAart Bik      }
431f6a54SAart Bik      // Generate code.
99b3849dSAart Bik      BINOP(arith::MulFOp)
99b3849dSAart Bik      BINOP(arith::MulIOp)
99b3849dSAart Bik      BINOP(arith::DivFOp)
99b3849dSAart Bik      BINOP(arith::DivSIOp)
99b3849dSAart Bik      BINOP(arith::DivUIOp)
99b3849dSAart Bik      BINOP(arith::AddFOp)
99b3849dSAart Bik      BINOP(arith::AddIOp)
99b3849dSAart Bik      BINOP(arith::SubFOp)
99b3849dSAart Bik      BINOP(arith::SubIOp)
99b3849dSAart Bik      BINOP(arith::AndIOp)
99b3849dSAart Bik      BINOP(arith::OrIOp)
99b3849dSAart Bik      BINOP(arith::XOrIOp)
431f6a54SAart Bik      BINOP(arith::ShLIOp)
431f6a54SAart Bik      BINOP(arith::ShRUIOp)
431f6a54SAart Bik      BINOP(arith::ShRSIOp)
16aa4e4bSAart Bik      // TODO: complex?
99b3849dSAart Bik    }
99b3849dSAart Bik  }
99b3849dSAart Bik  return false;
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik#undef UNAOP
2fda6207SAart Bik#undef TYPEDUNAOP
99b3849dSAart Bik#undef BINOP
99b3849dSAart Bik
99b3849dSAart Bik/// This method is called twice to analyze and rewrite the given for-loop.
99b3849dSAart Bik/// The first call (!codegen) does the analysis. Then, on success, the second
99b3849dSAart Bik/// call (codegen) rewriters the IR into vector form. This mechanism ensures
99b3849dSAart Bik/// that analysis and rewriting code stay in sync.
99b3849dSAart Bikstatic bool vectorizeStmt(PatternRewriter &rewriter, scf::ForOp forOp, VL vl,
99b3849dSAart Bik                          bool codegen) {
99b3849dSAart Bik  Block &block = forOp.getRegion().front();
23dc96bbSPeiming Liu  // For loops with single yield statement (as below) could be generated
23dc96bbSPeiming Liu  // when custom reduce is used with unary operation.
23dc96bbSPeiming Liu  // for (...)
23dc96bbSPeiming Liu  //   yield c_0
23dc96bbSPeiming Liu  if (block.getOperations().size() <= 1)
23dc96bbSPeiming Liu    return false;
23dc96bbSPeiming Liu
23dc96bbSPeiming Liu  Location loc = forOp.getLoc();
99b3849dSAart Bik  scf::YieldOp yield = cast<scf::YieldOp>(block.getTerminator());
99b3849dSAart Bik  auto &last = *++block.rbegin();
99b3849dSAart Bik  scf::ForOp forOpNew;
99b3849dSAart Bik
99b3849dSAart Bik  // Perform initial set up during codegen (we know that the first analysis
99b3849dSAart Bik  // pass was successful). For reductions, we need to construct a completely
99b3849dSAart Bik  // new for-loop, since the incoming and outgoing reduction type
99b3849dSAart Bik  // changes into SIMD form. For stores, we can simply adjust the stride
99b3849dSAart Bik  // and insert in the existing for-loop. In both cases, we set up a vector
99b3849dSAart Bik  // mask for all operations which takes care of confining vectors to
99b3849dSAart Bik  // the original iteration space (later cleanup loops or other
99b3849dSAart Bik  // optimizations can take care of those).
99b3849dSAart Bik  Value vmask;
99b3849dSAart Bik  if (codegen) {
99b3849dSAart Bik    Value step = constantIndex(rewriter, loc, vl.vectorLength);
99b3849dSAart Bik    if (vl.enableVLAVectorization) {
99b3849dSAart Bik      Value vscale =
99b3849dSAart Bik          rewriter.create<vector::VectorScaleOp>(loc, rewriter.getIndexType());
99b3849dSAart Bik      step = rewriter.create<arith::MulIOp>(loc, vscale, step);
99b3849dSAart Bik    }
99b3849dSAart Bik    if (!yield.getResults().empty()) {
99b3849dSAart Bik      Value init = forOp.getInitArgs()[0];
99b3849dSAart Bik      VectorType vtp = vectorType(vl, init.getType());
cb82d375SAart Bik      Value vinit = genVectorReducInit(rewriter, loc, yield->getOperand(0),
cb82d375SAart Bik                                       forOp.getRegionIterArg(0), init, vtp);
99b3849dSAart Bik      forOpNew = rewriter.create<scf::ForOp>(
99b3849dSAart Bik          loc, forOp.getLowerBound(), forOp.getUpperBound(), step, vinit);
cb82d375SAart Bik      forOpNew->setAttr(
781eabebSPeiming Liu          LoopEmitter::getLoopEmitterLoopAttrName(),
781eabebSPeiming Liu          forOp->getAttr(LoopEmitter::getLoopEmitterLoopAttrName()));
99b3849dSAart Bik      rewriter.setInsertionPointToStart(forOpNew.getBody());
99b3849dSAart Bik    } else {
5fcf907bSMatthias Springer      rewriter.modifyOpInPlace(forOp, [&]() { forOp.setStep(step); });
99b3849dSAart Bik      rewriter.setInsertionPoint(yield);
99b3849dSAart Bik    }
99b3849dSAart Bik    vmask = genVectorMask(rewriter, loc, vl, forOp.getInductionVar(),
99b3849dSAart Bik                          forOp.getLowerBound(), forOp.getUpperBound(), step);
99b3849dSAart Bik  }
99b3849dSAart Bik
99b3849dSAart Bik  // Sparse for-loops either are terminated by a non-empty yield operation
99b3849dSAart Bik  // (reduction loop) or otherwise by a store operation (pararallel loop).
99b3849dSAart Bik  if (!yield.getResults().empty()) {
cb82d375SAart Bik    // Analyze/vectorize reduction.
99b3849dSAart Bik    if (yield->getNumOperands() != 1)
99b3849dSAart Bik      return false;
cb82d375SAart Bik    Value red = yield->getOperand(0);
cb82d375SAart Bik    Value iter = forOp.getRegionIterArg(0);
cb82d375SAart Bik    vector::CombiningKind kind;
99b3849dSAart Bik    Value vrhs;
cb82d375SAart Bik    if (isVectorizableReduction(red, iter, kind) &&
cb82d375SAart Bik        vectorizeExpr(rewriter, forOp, vl, red, codegen, vmask, vrhs)) {
99b3849dSAart Bik      if (codegen) {
cb82d375SAart Bik        Value partial = forOpNew.getResult(0);
cb82d375SAart Bik        Value vpass = genVectorInvariantValue(rewriter, vl, iter);
99b3849dSAart Bik        Value vred = rewriter.create<arith::SelectOp>(loc, vmask, vrhs, vpass);
99b3849dSAart Bik        rewriter.create<scf::YieldOp>(loc, vred);
99b3849dSAart Bik        rewriter.setInsertionPointAfter(forOpNew);
cb82d375SAart Bik        Value vres = rewriter.create<vector::ReductionOp>(loc, kind, partial);
99b3849dSAart Bik        // Now do some relinking (last one is not completely type safe
99b3849dSAart Bik        // but all bad ones are removed right away). This also folds away
99b3849dSAart Bik        // nop broadcast operations.
ae9e1d1dSMatthias Springer        rewriter.replaceAllUsesWith(forOp.getResult(0), vres);
ae9e1d1dSMatthias Springer        rewriter.replaceAllUsesWith(forOp.getInductionVar(),
ae9e1d1dSMatthias Springer                                    forOpNew.getInductionVar());
ae9e1d1dSMatthias Springer        rewriter.replaceAllUsesWith(forOp.getRegionIterArg(0),
99b3849dSAart Bik                                    forOpNew.getRegionIterArg(0));
99b3849dSAart Bik        rewriter.eraseOp(forOp);
99b3849dSAart Bik      }
99b3849dSAart Bik      return true;
99b3849dSAart Bik    }
99b3849dSAart Bik  } else if (auto store = dyn_cast<memref::StoreOp>(last)) {
99b3849dSAart Bik    // Analyze/vectorize store operation.
99b3849dSAart Bik    auto subs = store.getIndices();
99b3849dSAart Bik    SmallVector<Value> idxs;
99b3849dSAart Bik    Value rhs = store.getValue();
99b3849dSAart Bik    Value vrhs;
99b3849dSAart Bik    if (vectorizeSubscripts(rewriter, forOp, vl, subs, codegen, vmask, idxs) &&
99b3849dSAart Bik        vectorizeExpr(rewriter, forOp, vl, rhs, codegen, vmask, vrhs)) {
99b3849dSAart Bik      if (codegen) {
99b3849dSAart Bik        genVectorStore(rewriter, loc, store.getMemRef(), idxs, vmask, vrhs);
99b3849dSAart Bik        rewriter.eraseOp(store);
99b3849dSAart Bik      }
99b3849dSAart Bik      return true;
99b3849dSAart Bik    }
99b3849dSAart Bik  }
99b3849dSAart Bik
99b3849dSAart Bik  assert(!codegen && "cannot call codegen when analysis failed");
99b3849dSAart Bik  return false;
99b3849dSAart Bik}
99b3849dSAart Bik
99b3849dSAart Bik/// Basic for-loop vectorizer.
99b3849dSAart Bikstruct ForOpRewriter : public OpRewritePattern<scf::ForOp> {
99b3849dSAart Bikpublic:
99b3849dSAart Bik  using OpRewritePattern<scf::ForOp>::OpRewritePattern;
99b3849dSAart Bik
99b3849dSAart Bik  ForOpRewriter(MLIRContext *context, unsigned vectorLength,
99b3849dSAart Bik                bool enableVLAVectorization, bool enableSIMDIndex32)
781eabebSPeiming Liu      : OpRewritePattern(context), vl{vectorLength, enableVLAVectorization,
781eabebSPeiming Liu                                      enableSIMDIndex32} {}
99b3849dSAart Bik
99b3849dSAart Bik  LogicalResult matchAndRewrite(scf::ForOp op,
99b3849dSAart Bik                                PatternRewriter &rewriter) const override {
99b3849dSAart Bik    // Check for single block, unit-stride for-loop that is generated by
c43e6274STim Harvey    // sparsifier, which means no data dependence analysis is required,
99b3849dSAart Bik    // and its loop-body is very restricted in form.
84cd51bbSwren romano    if (!op.getRegion().hasOneBlock() || !isConstantIntValue(op.getStep(), 1) ||
781eabebSPeiming Liu        !op->hasAttr(LoopEmitter::getLoopEmitterLoopAttrName()))
99b3849dSAart Bik      return failure();
99b3849dSAart Bik    // Analyze (!codegen) and rewrite (codegen) loop-body.
99b3849dSAart Bik    if (vectorizeStmt(rewriter, op, vl, /*codegen=*/false) &&
99b3849dSAart Bik        vectorizeStmt(rewriter, op, vl, /*codegen=*/true))
99b3849dSAart Bik      return success();
99b3849dSAart Bik    return failure();
99b3849dSAart Bik  }
99b3849dSAart Bik
99b3849dSAart Bikprivate:
99b3849dSAart Bik  const VL vl;
99b3849dSAart Bik};
99b3849dSAart Bik
cb82d375SAart Bik/// Reduction chain cleanup.
cb82d375SAart Bik///   v = for { }
cb82d375SAart Bik///   s = vsum(v)               v = for { }
cb82d375SAart Bik///   u = expand(s)       ->    for (v) { }
cb82d375SAart Bik///   for (u) { }
cb82d375SAart Biktemplate <typename VectorOp>
cb82d375SAart Bikstruct ReducChainRewriter : public OpRewritePattern<VectorOp> {
cb82d375SAart Bikpublic:
cb82d375SAart Bik  using OpRewritePattern<VectorOp>::OpRewritePattern;
cb82d375SAart Bik
cb82d375SAart Bik  LogicalResult matchAndRewrite(VectorOp op,
cb82d375SAart Bik                                PatternRewriter &rewriter) const override {
cb82d375SAart Bik    Value inp = op.getSource();
cb82d375SAart Bik    if (auto redOp = inp.getDefiningOp<vector::ReductionOp>()) {
cb82d375SAart Bik      if (auto forOp = redOp.getVector().getDefiningOp<scf::ForOp>()) {
781eabebSPeiming Liu        if (forOp->hasAttr(LoopEmitter::getLoopEmitterLoopAttrName())) {
cb82d375SAart Bik          rewriter.replaceOp(op, redOp.getVector());
cb82d375SAart Bik          return success();
cb82d375SAart Bik        }
cb82d375SAart Bik      }
cb82d375SAart Bik    }
cb82d375SAart Bik    return failure();
cb82d375SAart Bik  }
cb82d375SAart Bik};
cb82d375SAart Bik
99b3849dSAart Bik} // namespace
99b3849dSAart Bik
99b3849dSAart Bik//===----------------------------------------------------------------------===//
99b3849dSAart Bik// Public method for populating vectorization rules.
99b3849dSAart Bik//===----------------------------------------------------------------------===//
99b3849dSAart Bik
99b3849dSAart Bik/// Populates the given patterns list with vectorization rules.
99b3849dSAart Bikvoid mlir::populateSparseVectorizationPatterns(RewritePatternSet &patterns,
99b3849dSAart Bik                                               unsigned vectorLength,
99b3849dSAart Bik                                               bool enableVLAVectorization,
99b3849dSAart Bik                                               bool enableSIMDIndex32) {
16aa4e4bSAart Bik  assert(vectorLength > 0);
*a6e72f93SManupa Karunaratne  vector::populateVectorStepLoweringPatterns(patterns);
99b3849dSAart Bik  patterns.add<ForOpRewriter>(patterns.getContext(), vectorLength,
99b3849dSAart Bik                              enableVLAVectorization, enableSIMDIndex32);
cb82d375SAart Bik  patterns.add<ReducChainRewriter<vector::InsertElementOp>,
cb82d375SAart Bik               ReducChainRewriter<vector::BroadcastOp>>(patterns.getContext());
99b3849dSAart Bik}