SparseTensor/Transforms/SparseTensorRewriting.cpp

28ebb0b6SAart Bik//===- SparseTensorRewriting.cpp - Sparse tensor rewriting rules ----------===//
28ebb0b6SAart Bik//
28ebb0b6SAart Bik// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
28ebb0b6SAart Bik// See https://llvm.org/LICENSE.txt for license information.
28ebb0b6SAart Bik// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
28ebb0b6SAart Bik//
28ebb0b6SAart Bik//===----------------------------------------------------------------------===//
28ebb0b6SAart Bik//
28ebb0b6SAart Bik// This file implements rewriting rules that are specific to sparse tensors.
28ebb0b6SAart Bik//
28ebb0b6SAart Bik//===----------------------------------------------------------------------===//
28ebb0b6SAart Bik
365777ecSAart Bik#include "Utils/CodegenUtils.h"
365777ecSAart Bik#include "Utils/LoopEmitter.h"
c7bb69bcSAart Bik
6456e0bbSPeiming Liu#include "mlir/Dialect/Affine/IR/AffineOps.h"
abc362a1SJakub Kuderski#include "mlir/Dialect/Arith/IR/Arith.h"
28ebb0b6SAart Bik#include "mlir/Dialect/Bufferization/IR/Bufferization.h"
28ebb0b6SAart Bik#include "mlir/Dialect/Linalg/IR/Linalg.h"
555e7835Sbixia1#include "mlir/Dialect/Linalg/Utils/Utils.h"
550288cbSPeiming Liu#include "mlir/Dialect/MemRef/IR/MemRef.h"
67f61b08Sbixia1#include "mlir/Dialect/SCF/IR/SCF.h"
28ebb0b6SAart Bik#include "mlir/Dialect/SparseTensor/IR/SparseTensor.h"
d37affb0SAart Bik#include "mlir/Dialect/SparseTensor/IR/SparseTensorStorageLayout.h"
f708a549Swren romano#include "mlir/Dialect/SparseTensor/IR/SparseTensorType.h"
28ebb0b6SAart Bik#include "mlir/Dialect/SparseTensor/Transforms/Passes.h"
28ebb0b6SAart Bik#include "mlir/Dialect/Tensor/IR/Tensor.h"
d37affb0SAart Bik#include "mlir/Dialect/Vector/IR/VectorOps.h"
28ebb0b6SAart Bik#include "mlir/IR/AffineMap.h"
28ebb0b6SAart Bik#include "mlir/IR/Matchers.h"
28ebb0b6SAart Bik#include "mlir/Support/LLVM.h"
28ebb0b6SAart Bik
28ebb0b6SAart Bikusing namespace mlir;
28ebb0b6SAart Bikusing namespace mlir::bufferization;
28ebb0b6SAart Bikusing namespace mlir::linalg;
28ebb0b6SAart Bikusing namespace mlir::sparse_tensor;
28ebb0b6SAart Bik
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik// Helper methods for the actual rewriting rules.
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik
0d4e7fbaSAart Bik// Helper method to match any typed zero.
0d4e7fbaSAart Bikstatic bool isZeroValue(Value val) {
0d4e7fbaSAart Bik  return matchPattern(val, m_Zero()) || matchPattern(val, m_AnyZeroFloat());
0d4e7fbaSAart Bik}
0d4e7fbaSAart Bik
28ebb0b6SAart Bik// Helper to detect a sparse tensor type operand.
e7df8281SPeiming Liustatic bool isSparseTensor(Value v) {
e7df8281SPeiming Liu  auto enc = getSparseTensorEncoding(v.getType());
1944c4f7SAart Bik  return enc && !llvm::all_of(enc.getLvlTypes(),
aaf91645SPeiming Liu                              [](auto lt) { return lt == LevelFormat::Dense; });
b4e2b7f9SPeiming Liu}
e7df8281SPeiming Liustatic bool isSparseTensor(OpOperand *op) { return isSparseTensor(op->get()); }
b4e2b7f9SPeiming Liu
6a45339bSAart Bik// Helper method to find zero/uninitialized tensor materialization.
6a45339bSAart Bikstatic bool isMaterializing(OpOperand *op, bool isZero) {
28ebb0b6SAart Bik  Value val = op->get();
65074179SAart Bik  // Check allocation, with zero alloc when required.
ce3d0e87SAart Bik  if (auto alloc = val.getDefiningOp<AllocTensorOp>()) {
ce3d0e87SAart Bik    Value copy = alloc.getCopy();
ce3d0e87SAart Bik    if (isZero)
0d4e7fbaSAart Bik      return copy && isZeroValue(copy);
ce3d0e87SAart Bik    return !copy;
ce3d0e87SAart Bik  }
6a45339bSAart Bik  // Check for empty tensor materialization.
6a45339bSAart Bik  if (auto empty = val.getDefiningOp<tensor::EmptyOp>())
6a45339bSAart Bik    return !isZero;
65074179SAart Bik  // Last resort for zero alloc: the whole value is zero.
65074179SAart Bik  return isZero && isZeroValue(val);
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper to detect sampling operation.
28ebb0b6SAart Bikstatic bool isSampling(GenericOp op) {
d3b3f765SJacques Pienaar  auto yieldOp = cast<linalg::YieldOp>(op.getRegion().front().getTerminator());
28ebb0b6SAart Bik  if (auto *def = yieldOp.getOperand(0).getDefiningOp()) {
28ebb0b6SAart Bik    if (isa<arith::MulFOp>(def) || isa<arith::MulIOp>(def)) {
28ebb0b6SAart Bik      // Both scalar input arguments used exactly once.
28ebb0b6SAart Bik      Value s1 = op.getBlock()->getArgument(0);
28ebb0b6SAart Bik      Value s2 = op.getBlock()->getArgument(1);
28ebb0b6SAart Bik      return (def->getOperand(0) == s1 && def->getOperand(1) == s2) ||
28ebb0b6SAart Bik             (def->getOperand(1) == s1 && def->getOperand(0) == s2);
28ebb0b6SAart Bik    }
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik  return false;
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper to detect chain of multiplications that do not involve x.
28ebb0b6SAart Bikstatic bool isMulChain(Value val, Value x) {
5550c821STres Popp  if (auto arg = dyn_cast<BlockArgument>(val))
28ebb0b6SAart Bik    return arg != x;
28ebb0b6SAart Bik  if (auto *def = val.getDefiningOp()) {
28ebb0b6SAart Bik    if (isa<arith::MulFOp>(def) || isa<arith::MulIOp>(def))
28ebb0b6SAart Bik      return isMulChain(def->getOperand(0), x) &&
28ebb0b6SAart Bik             isMulChain(def->getOperand(1), x);
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik  return false;
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper to detect x = x + <multiplications>.
28ebb0b6SAart Bikstatic bool isSumOfMul(GenericOp op) {
d3b3f765SJacques Pienaar  auto yieldOp = cast<linalg::YieldOp>(op.getRegion().front().getTerminator());
28ebb0b6SAart Bik  if (auto *def = yieldOp.getOperand(0).getDefiningOp()) {
28ebb0b6SAart Bik    if (isa<arith::AddFOp>(def) || isa<arith::AddIOp>(def)) {
28ebb0b6SAart Bik      Value x = op.getBlock()->getArguments().back();
28ebb0b6SAart Bik      return (def->getOperand(0) == x && isMulChain(def->getOperand(1), x)) ||
28ebb0b6SAart Bik             (def->getOperand(1) == x && isMulChain(def->getOperand(0), x));
28ebb0b6SAart Bik    }
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik  return false;
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
c7bb69bcSAart Bik// Helper to detect direct yield of a zero value.
c7bb69bcSAart Bikstatic bool isZeroYield(GenericOp op) {
d3b3f765SJacques Pienaar  auto yieldOp = cast<linalg::YieldOp>(op.getRegion().front().getTerminator());
5550c821STres Popp  if (auto arg = dyn_cast<BlockArgument>(yieldOp.getOperand(0))) {
c7bb69bcSAart Bik    if (arg.getOwner()->getParentOp() == op) {
a7cccb9cSAlexander Belyaev      return isZeroValue(op->getOperand(arg.getArgNumber()));
c7bb69bcSAart Bik    }
c7bb69bcSAart Bik  }
0d4e7fbaSAart Bik  return isZeroValue(yieldOp.getOperand(0));
c7bb69bcSAart Bik}
c7bb69bcSAart Bik
330d48c4Sbixia1/// Populates given sizes array from type (for static sizes) and from
330d48c4Sbixia1/// the tensor (for dynamic sizes).
0e1708ffSAart Bikstatic void sizesForTensor(OpBuilder &builder, SmallVectorImpl<Value> &sizes,
330d48c4Sbixia1                           Location loc, ShapedType stp, Value tensor) {
330d48c4Sbixia1  for (const auto &d : enumerate(stp.getShape())) {
330d48c4Sbixia1    Value dim;
399638f9SAliia Khasanova    if (d.value() == ShapedType::kDynamic)
330d48c4Sbixia1      dim = builder.create<tensor::DimOp>(loc, tensor, d.index());
330d48c4Sbixia1    else
330d48c4Sbixia1      dim = constantIndex(builder, loc, d.value());
330d48c4Sbixia1    sizes.push_back(dim);
330d48c4Sbixia1  }
330d48c4Sbixia1}
330d48c4Sbixia1
76647fceSwren romanostatic RankedTensorType getBufferType(const SparseTensorType &stt,
76647fceSwren romano                                      bool needTmpCOO) {
45288085SAart Bik  return needTmpCOO ? stt.getCOOType(/*ordered=*/false)
76647fceSwren romano                    : stt.getRankedTensorType();
81e3079dSbixia1}
81e3079dSbixia1
eb877006Sbixia1/// Collects the dynamic dimension sizes for `tp` with the assumption that
eb877006Sbixia1/// `sizes` are the dimension sizes for the type. Stores the dynamic dimension
eb877006Sbixia1/// sizes to dynSizes.
dda3dc5eSPeiming Liustatic void getDynamicSizes(RankedTensorType tp, ValueRange sizes,
eb877006Sbixia1                            SmallVectorImpl<Value> &dynSizes) {
eb877006Sbixia1  for (const auto &d : enumerate(tp.getShape())) {
399638f9SAliia Khasanova    if (d.value() == ShapedType::kDynamic)
eb877006Sbixia1      dynSizes.push_back(sizes[d.index()]);
eb877006Sbixia1  }
eb877006Sbixia1}
eb877006Sbixia1
8d615a23SPeiming Liustatic LogicalResult genForeachOnSparseConstant(ForeachOp op,
8d615a23SPeiming Liu                                                RewriterBase &rewriter,
8d615a23SPeiming Liu                                                SparseElementsAttr attr) {
8d615a23SPeiming Liu  auto loc = op.getLoc();
8d615a23SPeiming Liu  SmallVector<Value> reduc = op.getInitArgs();
8d615a23SPeiming Liu
8d615a23SPeiming Liu  // Foreach on constant.
8d615a23SPeiming Liu  foreachInSparseConstant(
9d4df97fSwren romano      rewriter, loc, attr, op.getOrder().value_or(AffineMap()),
84cd51bbSwren romano      [&reduc, &rewriter, op](ArrayRef<Value> cvs, Value v) mutable {
8d615a23SPeiming Liu        SmallVector<Value> args;
84cd51bbSwren romano        args.append(cvs.begin(), cvs.end());
8d615a23SPeiming Liu        args.push_back(v);
8d615a23SPeiming Liu        args.append(reduc);
8d615a23SPeiming Liu        // Clones the foreach op to get a copy of the loop body.
8d615a23SPeiming Liu        auto cloned = cast<ForeachOp>(rewriter.clone(*op.getOperation()));
8d615a23SPeiming Liu        assert(args.size() == cloned.getBody()->getNumArguments());
8d615a23SPeiming Liu        Operation *yield = cloned.getBody()->getTerminator();
42c31d83SMatthias Springer        rewriter.inlineBlockBefore(cloned.getBody(), op, args);
8d615a23SPeiming Liu        // clean up
8d615a23SPeiming Liu        rewriter.eraseOp(cloned);
8d615a23SPeiming Liu        reduc = yield->getOperands();
8d615a23SPeiming Liu        rewriter.eraseOp(yield);
8d615a23SPeiming Liu      });
8d615a23SPeiming Liu
8d615a23SPeiming Liu  rewriter.replaceOp(op, reduc);
8d615a23SPeiming Liu  return success();
8d615a23SPeiming Liu}
8d615a23SPeiming Liu
aedf5d58Sbixia1/// Populates the given sizes array for concatenation from types (for static
aedf5d58Sbixia1/// sizes) and from the source tensors (for dynamic sizes).
aedf5d58Sbixia1static void concatSizesFromInputs(OpBuilder &builder,
aedf5d58Sbixia1                                  SmallVectorImpl<Value> &sizes, Location loc,
aedf5d58Sbixia1                                  ShapedType dstTp, ValueRange srcs,
aedf5d58Sbixia1                                  unsigned dim) {
aedf5d58Sbixia1  auto dstShape = dstTp.getShape();
aedf5d58Sbixia1  sizesFromSrc(builder, sizes, loc, srcs[0]);
aedf5d58Sbixia1
aedf5d58Sbixia1  // Sum up on the `dim` if the dimension is dynamic.
aedf5d58Sbixia1  if (dstShape[dim] != ShapedType::kDynamic) {
aedf5d58Sbixia1    // Faithfully take the static size.
aedf5d58Sbixia1    sizes[dim] = constantIndex(builder, loc, dstShape[dim]);
aedf5d58Sbixia1  } else {
aedf5d58Sbixia1    // Else, compute the shape dynamically.
aedf5d58Sbixia1    for (const auto &src : srcs.drop_front()) {
aedf5d58Sbixia1      Value srcSz = linalg::createOrFoldDimOp(builder, loc, src, dim);
aedf5d58Sbixia1      // Sum up all the sizes.
aedf5d58Sbixia1      sizes[dim] = builder.create<arith::AddIOp>(loc, sizes[dim], srcSz);
aedf5d58Sbixia1    }
aedf5d58Sbixia1  }
aedf5d58Sbixia1}
aedf5d58Sbixia1
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik// The actual sparse tensor rewriting rules.
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik
28ebb0b6SAart Biknamespace {
28ebb0b6SAart Bik
ea3eeb48SPeiming Liu/// TODO: move it to tensor dialect instead.
ea3eeb48SPeiming Liu///
ea3eeb48SPeiming Liu/// Fold `tensor.concat` and `tensor.extract_slice`
ea3eeb48SPeiming Liu///
ea3eeb48SPeiming Liu/// %concat = tensor.concat dim(2) %t0, %t1
ea3eeb48SPeiming Liu///   : (tensor<1x64x1xf32>, tensor<1x64x1xf32>) -> tensor<1x64x2xf32>
ea3eeb48SPeiming Liu/// %extracted0 = tensor.extract_slice %concat[0, 0, 0][1, 64, 1][1, 1, 1]
ea3eeb48SPeiming Liu///   : tensor<1x64x2xf32> to tensor<1x64x1xf32>
ea3eeb48SPeiming Liu/// %extracted1 = tensor.extract_slice %concat[0, 0, 1][1, 64, 1][1, 1, 1]
ea3eeb48SPeiming Liu///   : tensor<1x64x2xf32> to tensor<1x64x1xf32>
ea3eeb48SPeiming Liu///
ea3eeb48SPeiming Liu/// Becomes
ea3eeb48SPeiming Liu///
ea3eeb48SPeiming Liu/// %extract0, %extract1 = %t0, %t1
ea3eeb48SPeiming Liustruct FuseExtractSliceWithConcat
ea3eeb48SPeiming Liu    : public OpRewritePattern<tensor::ExtractSliceOp> {
ea3eeb48SPeiming Liu  using OpRewritePattern<tensor::ExtractSliceOp>::OpRewritePattern;
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu  LogicalResult matchAndRewrite(tensor::ExtractSliceOp extractOp,
ea3eeb48SPeiming Liu                                PatternRewriter &rewriter) const override {
ea3eeb48SPeiming Liu    auto concatOp = extractOp.getSource().getDefiningOp<tensor::ConcatOp>();
ea3eeb48SPeiming Liu    if (!concatOp)
ea3eeb48SPeiming Liu      return failure();
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu    Location loc = extractOp.getLoc();
ea3eeb48SPeiming Liu    int64_t dim = concatOp.getDim();
ea3eeb48SPeiming Liu    int64_t rank = extractOp.getResultType().getRank();
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu    SmallVector<OpFoldResult> srcStrides(rank, rewriter.getIndexAttr(1));
ea3eeb48SPeiming Liu    SmallVector<OpFoldResult> srcOffsets(rank, rewriter.getIndexAttr(0));
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu    // Compute the partial sums for the slice offsets.
ea3eeb48SPeiming Liu    AffineExpr sum = rewriter.getAffineDimExpr(0);
ea3eeb48SPeiming Liu    SmallVector<AffineExpr> partialSums = {sum};
ea3eeb48SPeiming Liu    SmallVector<OpFoldResult> offsetStrides = {rewriter.getIndexAttr(0)};
ea3eeb48SPeiming Liu    for (auto [idx, input] :
ea3eeb48SPeiming Liu         llvm::enumerate(concatOp.getInputs().drop_back())) {
ea3eeb48SPeiming Liu      sum = sum + rewriter.getAffineDimExpr(idx + 1);
ea3eeb48SPeiming Liu      partialSums.push_back(sum);
ea3eeb48SPeiming Liu      offsetStrides.push_back(
ea3eeb48SPeiming Liu          rewriter.createOrFold<tensor::DimOp>(loc, input, dim));
ea3eeb48SPeiming Liu    }
ea3eeb48SPeiming Liu    auto partialSumMap = AffineMap::get(concatOp.getInputs().size(), 0,
ea3eeb48SPeiming Liu                                        partialSums, rewriter.getContext());
ea3eeb48SPeiming Liu    SmallVector<OpFoldResult> dimOffsets =
ea3eeb48SPeiming Liu        affine::makeComposedFoldedMultiResultAffineApply(
ea3eeb48SPeiming Liu            rewriter, loc, partialSumMap, offsetStrides);
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu    auto allEqual = [](ArrayRef<OpFoldResult> lhs, ArrayRef<OpFoldResult> rhs) {
ea3eeb48SPeiming Liu      for (auto [l, r] : llvm::zip(lhs, rhs)) {
ea3eeb48SPeiming Liu        std::optional<int64_t> staticVal = getConstantIntValue(l);
ea3eeb48SPeiming Liu        if (!staticVal.has_value() || staticVal != getConstantIntValue(r))
ea3eeb48SPeiming Liu          return false;
ea3eeb48SPeiming Liu      }
ea3eeb48SPeiming Liu      return lhs.size() == rhs.size();
ea3eeb48SPeiming Liu    };
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu    for (auto [i, input, offset] :
ea3eeb48SPeiming Liu         llvm::enumerate(concatOp.getInputs(), dimOffsets)) {
ea3eeb48SPeiming Liu      SmallVector<OpFoldResult> srcSizes =
ea3eeb48SPeiming Liu          tensor::getMixedSizes(rewriter, loc, input);
ea3eeb48SPeiming Liu      srcOffsets[dim] = offset;
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu      SmallVector<OpFoldResult> dstSizes = extractOp.getMixedSizes();
ea3eeb48SPeiming Liu      SmallVector<OpFoldResult> dstOffsets = extractOp.getMixedOffsets();
ea3eeb48SPeiming Liu      SmallVector<OpFoldResult> dstStrides = extractOp.getMixedStrides();
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu      if (allEqual(srcSizes, dstSizes) && allEqual(srcOffsets, dstOffsets) &&
ea3eeb48SPeiming Liu          allEqual(srcStrides, dstStrides)) {
ea3eeb48SPeiming Liu        Value operand = concatOp.getOperand(i);
ea3eeb48SPeiming Liu        if (operand.getType() == extractOp.getResultType())
ea3eeb48SPeiming Liu          rewriter.replaceOp(extractOp, operand);
ea3eeb48SPeiming Liu        break;
ea3eeb48SPeiming Liu      }
ea3eeb48SPeiming Liu    }
ea3eeb48SPeiming Liu
ea3eeb48SPeiming Liu    return success();
ea3eeb48SPeiming Liu  }
ea3eeb48SPeiming Liu};
ea3eeb48SPeiming Liu
3aeb28b9SPeiming Liu/// Rewriting rule that fuses sparse_tensor.convert into producer.
3aeb28b9SPeiming Liustruct FoldConvertIntoProducer : public OpRewritePattern<ConvertOp> {
3aeb28b9SPeiming Liupublic:
3aeb28b9SPeiming Liu  using OpRewritePattern::OpRewritePattern;
3aeb28b9SPeiming Liu
3aeb28b9SPeiming Liu  LogicalResult matchAndRewrite(ConvertOp op,
3aeb28b9SPeiming Liu                                PatternRewriter &rewriter) const override {
3aeb28b9SPeiming Liu    auto producer = op.getSource().getDefiningOp<GenericOp>();
3aeb28b9SPeiming Liu    if (!producer || producer.getDpsInits().size() != 1 ||
3aeb28b9SPeiming Liu        !isMaterializing(producer.getDpsInitOperand(0), false) ||
3aeb28b9SPeiming Liu        !producer.getResult(0).hasOneUse()) {
3aeb28b9SPeiming Liu      return failure();
3aeb28b9SPeiming Liu    }
fb8f492aSPeiming Liu    // Clone the materialization operation, but update the result to sparse.
fb8f492aSPeiming Liu    rewriter.setInsertionPoint(producer);
fb8f492aSPeiming Liu    Operation *init = producer.getDpsInitOperand(0)->get().getDefiningOp();
fb8f492aSPeiming Liu    Operation *cloned = rewriter.clone(*init);
fb8f492aSPeiming Liu    cloned->getResult(0).setType(op.getResult().getType());
fb8f492aSPeiming Liu
3aeb28b9SPeiming Liu    rewriter.modifyOpInPlace(producer, [&]() {
fb8f492aSPeiming Liu      producer.getDpsInitsMutable().assign(cloned->getResults());
3aeb28b9SPeiming Liu      producer.getResult(0).setType(op.getResult().getType());
3aeb28b9SPeiming Liu    });
3aeb28b9SPeiming Liu
3aeb28b9SPeiming Liu    rewriter.replaceAllOpUsesWith(op, producer);
3aeb28b9SPeiming Liu    op->erase();
3aeb28b9SPeiming Liu
3aeb28b9SPeiming Liu    return success();
3aeb28b9SPeiming Liu  }
3aeb28b9SPeiming Liu};
3aeb28b9SPeiming Liu
c7bb69bcSAart Bik/// Rewriting rule that converts direct yield of zero with initial allocation.
c7bb69bcSAart Bikstruct FoldInvariantYield : public OpRewritePattern<GenericOp> {
c7bb69bcSAart Bikpublic:
c7bb69bcSAart Bik  using OpRewritePattern<GenericOp>::OpRewritePattern;
c7bb69bcSAart Bik
c7bb69bcSAart Bik  LogicalResult matchAndRewrite(GenericOp op,
c7bb69bcSAart Bik                                PatternRewriter &rewriter) const override {
0a8e3dd4SMatthias Springer    if (!op.hasPureTensorSemantics() || op.getNumResults() != 1 ||
6a45339bSAart Bik        !isMaterializing(op.getDpsInitOperand(0), /*isZero=*/false) ||
63baab8bSPeiming Liu        !isZeroYield(op) || !op.getDpsInitOperand(0)->get().hasOneUse())
c7bb69bcSAart Bik      return failure();
255c3f11Swren romano    auto outputType = getRankedTensorType(op.getResult(0));
6a45339bSAart Bik    // Yielding zero on newly materialized sparse tensor can be
6a45339bSAart Bik    // optimized directly (regardless of dynamic or static size).
ec495b53SPeiming Liu    if (getSparseTensorEncoding(outputType)) {
b4db15a9SAlexander Belyaev      rewriter.replaceOp(op, op.getDpsInitOperand(0)->get());
ec495b53SPeiming Liu      return success();
ec495b53SPeiming Liu    }
6a45339bSAart Bik    // Use static zero value directly instead of materialization.
ec495b53SPeiming Liu    if (!outputType.hasStaticShape())
ec495b53SPeiming Liu      return failure();
6a45339bSAart Bik    Operation *def = op.getDpsInitOperand(0)->get().getDefiningOp();
6a45339bSAart Bik    rewriter.replaceOp(op, constantZero(rewriter, op.getLoc(), outputType));
6a45339bSAart Bik    rewriter.eraseOp(def);
c7bb69bcSAart Bik    return success();
c7bb69bcSAart Bik  }
c7bb69bcSAart Bik};
c7bb69bcSAart Bik
28ebb0b6SAart Bik/// Rewriting rule that converts two kernels:
28ebb0b6SAart Bik///
28ebb0b6SAart Bik///      T(i,j) = SUM(k, A(i,j,k) * B(i,j,k) * ... )
28ebb0b6SAart Bik///      X(i,j) = S(i,j) * T(i,j)
28ebb0b6SAart Bik///
28ebb0b6SAart Bik/// into a single kernel, using distributive law:
28ebb0b6SAart Bik///
28ebb0b6SAart Bik///      X(i,j) = SUM(k, S(i,j) * A(i,j,k) * B(i,j,k) * ... )
28ebb0b6SAart Bik///
28ebb0b6SAart Bik/// This kind of fusion (merging two ops into one but using arithmetic
28ebb0b6SAart Bik/// equalities that may not hold for floating-point computations) would
28ebb0b6SAart Bik/// be undesirable in the dense case, since we distribute the multiplication
28ebb0b6SAart Bik/// into the reduction loop. However, for sparse sampling tensor S, such
28ebb0b6SAart Bik/// a fusion may actually reduce the asymptotic complexity of the kernel,
28ebb0b6SAart Bik/// since intermediate results may be nullified.
28ebb0b6SAart Bikstruct FuseSparseMultiplyOverAdd : public OpRewritePattern<GenericOp> {
28ebb0b6SAart Bikpublic:
28ebb0b6SAart Bik  using OpRewritePattern<GenericOp>::OpRewritePattern;
28ebb0b6SAart Bik
28ebb0b6SAart Bik  LogicalResult matchAndRewrite(GenericOp op,
28ebb0b6SAart Bik                                PatternRewriter &rewriter) const override {
28ebb0b6SAart Bik    // Check consumer.
0a8e3dd4SMatthias Springer    if (!op.hasPureTensorSemantics() || op.getNumDpsInputs() != 2 ||
28ebb0b6SAart Bik        op.getNumResults() != 1 ||
28ebb0b6SAart Bik        op.getNumParallelLoops() != op.getNumLoops() ||
b4db15a9SAlexander Belyaev        !op.getMatchingIndexingMap(op.getDpsInitOperand(0)).isIdentity() ||
b4db15a9SAlexander Belyaev        !op.getMatchingIndexingMap(op.getDpsInputOperand(0)).isIdentity() ||
b4db15a9SAlexander Belyaev        !op.getMatchingIndexingMap(op.getDpsInputOperand(1)).isIdentity())
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Find consuming OP2(sparse, other) or OP2(other, sparse). The other
28ebb0b6SAart Bik    // operand can be sparse or dense, since the point of this rewriting rule
28ebb0b6SAart Bik    // is detecting a situation in which *more* sparsity is introduced into
28ebb0b6SAart Bik    // a computation, be it already sparse or still dense.
28ebb0b6SAart Bik    unsigned other = 0;
b4db15a9SAlexander Belyaev    if (isSparseTensor(op.getDpsInputOperand(0)))
28ebb0b6SAart Bik      other = 1;
b4db15a9SAlexander Belyaev    else if (!isSparseTensor(op.getDpsInputOperand(1)))
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Check producer.
28ebb0b6SAart Bik    auto prod = dyn_cast_or_null<GenericOp>(
b4db15a9SAlexander Belyaev        op.getDpsInputOperand(other)->get().getDefiningOp());
0a8e3dd4SMatthias Springer    if (!prod || !prod.hasPureTensorSemantics() || prod.getNumResults() != 1 ||
28ebb0b6SAart Bik        !prod.getResult(0).hasOneUse())
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Sampling consumer and sum of multiplication chain producer.
6a45339bSAart Bik    if (!isMaterializing(op.getDpsInitOperand(0), /*isZero=*/false) ||
6a45339bSAart Bik        !isMaterializing(prod.getDpsInitOperand(0), /*isZero=*/true) ||
ce3d0e87SAart Bik        !isSampling(op) || !isSumOfMul(prod))
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Modify operand structure of producer and consumer.
28ebb0b6SAart Bik    Location loc = prod.getLoc();
a7cccb9cSAlexander Belyaev    SmallVector<Value> inputOps = prod.getInputs();
a7cccb9cSAlexander Belyaev    SmallVector<Value> outputOps = op.getOutputs();
d2c0572bSJacques Pienaar    SmallVector<AffineMap> fusedIndexMaps = prod.getIndexingMapsArray();
b4db15a9SAlexander Belyaev    inputOps.push_back(op.getDpsInputOperand(1 - other)->get());
28ebb0b6SAart Bik    fusedIndexMaps.push_back(fusedIndexMaps.back()); // mimic other
28ebb0b6SAart Bik    // Fuse producer and consumer into a new generic op.
28ebb0b6SAart Bik    auto fusedOp = rewriter.create<GenericOp>(
28ebb0b6SAart Bik        loc, op.getResult(0).getType(), inputOps, outputOps,
c38d9cf2SOleg Shyshkov        rewriter.getAffineMapArrayAttr(fusedIndexMaps), prod.getIteratorTypes(),
28ebb0b6SAart Bik        /*doc=*/nullptr, /*library_call=*/nullptr);
d3b3f765SJacques Pienaar    Block &prodBlock = prod.getRegion().front();
d3b3f765SJacques Pienaar    Block &consBlock = op.getRegion().front();
4d67b278SJeff Niu    IRMapping mapper;
91d5653eSMatthias Springer    Block *fusedBlock = rewriter.createBlock(&fusedOp.getRegion());
28ebb0b6SAart Bik    unsigned num = prodBlock.getNumArguments();
28ebb0b6SAart Bik    for (unsigned i = 0; i < num - 1; i++)
28ebb0b6SAart Bik      addArg(mapper, fusedBlock, prodBlock.getArgument(i));
28ebb0b6SAart Bik    addArg(mapper, fusedBlock, consBlock.getArgument(1 - other));
28ebb0b6SAart Bik    addArg(mapper, fusedBlock, prodBlock.getArgument(num - 1));
28ebb0b6SAart Bik    // Clone bodies of the producer and consumer in new evaluation order.
28ebb0b6SAart Bik    auto *acc = prodBlock.getTerminator()->getOperand(0).getDefiningOp();
28ebb0b6SAart Bik    auto *sampler = consBlock.getTerminator()->getOperand(0).getDefiningOp();
28ebb0b6SAart Bik    Value last;
28ebb0b6SAart Bik    for (auto &op : prodBlock.without_terminator())
28ebb0b6SAart Bik      if (&op != acc) {
28ebb0b6SAart Bik        last = op.getResult(0);
28ebb0b6SAart Bik        rewriter.clone(op, mapper);
28ebb0b6SAart Bik      }
28ebb0b6SAart Bik    mapper.map(consBlock.getArgument(other), fusedBlock->back().getResult(0));
28ebb0b6SAart Bik    mapper.map(last, rewriter.clone(*sampler, mapper)->getResult(0));
28ebb0b6SAart Bik    last = rewriter.clone(*acc, mapper)->getResult(0);
28ebb0b6SAart Bik    rewriter.create<linalg::YieldOp>(loc, last);
ce3d0e87SAart Bik    // Force initial value on merged allocation for dense outputs.
6a45339bSAart Bik    // TODO: deal with non alloc tensor here one day
ce3d0e87SAart Bik    if (!getSparseTensorEncoding(op.getResult(0).getType())) {
b4db15a9SAlexander Belyaev      Value init = prod.getDpsInitOperand(0)
c7bb69bcSAart Bik                       ->get()
c7bb69bcSAart Bik                       .getDefiningOp<AllocTensorOp>()
c7bb69bcSAart Bik                       .getCopy();
c7bb69bcSAart Bik      AllocTensorOp a =
b4db15a9SAlexander Belyaev          op.getDpsInitOperand(0)->get().getDefiningOp<AllocTensorOp>();
5fcf907bSMatthias Springer      rewriter.modifyOpInPlace(a, [&]() { a.getCopyMutable().assign(init); });
ce3d0e87SAart Bik    }
28ebb0b6SAart Bik    // Replace consumer with fused operation. Old producer
28ebb0b6SAart Bik    // and consumer ops will be removed by DCE.
28ebb0b6SAart Bik    rewriter.replaceOp(op, fusedOp->getResults());
28ebb0b6SAart Bik    return success();
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik
28ebb0b6SAart Bikprivate:
28ebb0b6SAart Bik  // Helper to add argument and record the mapping.
4d67b278SJeff Niu  static void addArg(IRMapping &mapper, Block *b, BlockArgument a) {
28ebb0b6SAart Bik    mapper.map(a, b->addArgument(a.getType(), a.getLoc()));
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik};
28ebb0b6SAart Bik
9a018a7bSAart Bik// Fuse a tensor cast into producing operation. Note that a tensor.cast
9a018a7bSAart Bik// should really not be used to convert between sparse encodings. Since
9a018a7bSAart Bik// the pattern currently appears as a result of some prior rewriting
9a018a7bSAart Bik// we make an attempt to repair very obvious cases.
9a018a7bSAart Bik// TODO: audit the pure tensor dialect rewriting rules
9a018a7bSAart Bikstruct FuseTensorCast : public OpRewritePattern<tensor::CastOp> {
9a018a7bSAart Bikpublic:
9a018a7bSAart Bik  using OpRewritePattern<tensor::CastOp>::OpRewritePattern;
9a018a7bSAart Bik
9a018a7bSAart Bik  LogicalResult matchAndRewrite(tensor::CastOp op,
9a018a7bSAart Bik                                PatternRewriter &rewriter) const override {
9a018a7bSAart Bik    Type srcType = op.getSource().getType();
9a018a7bSAart Bik    Type dstType = op.getDest().getType();
9a018a7bSAart Bik    // A nop cast simply folds away.
9a018a7bSAart Bik    if (srcType == dstType) {
9a018a7bSAart Bik      rewriter.replaceOp(op, op->getResults());
9a018a7bSAart Bik      return success();
9a018a7bSAart Bik    }
9a018a7bSAart Bik    // See if a sparsity changing cast can be fused into producer.
9a018a7bSAart Bik    if (tensor::isSameTypeWithoutEncoding(srcType, dstType)) {
9a018a7bSAart Bik      if (Operation *def = op.getSource().getDefiningOp()) {
9a018a7bSAart Bik        if (def->hasOneUse() && isa<tensor::ExtractSliceOp>(def)) {
5fcf907bSMatthias Springer          rewriter.modifyOpInPlace(def, [&]() {
9a018a7bSAart Bik            def->getResult(0).setType(op->getResultTypes()[0]);
3d90c812SMatthias Springer          });
9a018a7bSAart Bik          rewriter.replaceOp(op, def->getResult(0));
9a018a7bSAart Bik          return success();
9a018a7bSAart Bik        }
9a018a7bSAart Bik      }
9a018a7bSAart Bik    }
9a018a7bSAart Bik    // Repair tensor casts with at least one sparse operand into the
9a018a7bSAart Bik    // the properly supported sparse_tensor.convert.
9a018a7bSAart Bik    if (getSparseTensorEncoding(srcType) || getSparseTensorEncoding(dstType)) {
9a018a7bSAart Bik      rewriter.replaceOpWithNewOp<ConvertOp>(op, dstType, op.getSource());
9a018a7bSAart Bik      return success();
9a018a7bSAart Bik    }
9a018a7bSAart Bik    // Fail otherwise.
9a018a7bSAart Bik    return failure();
9a018a7bSAart Bik  }
9a018a7bSAart Bik};
9a018a7bSAart Bik
e7df8281SPeiming Liu/// Rewrites a sequence of operations for sparse tensor selections in to
c43e6274STim Harvey/// semi-ring operations such that they can be compiled correctly by the
c43e6274STim Harvey/// sparsifier. E.g., transforming the following sequence
e7df8281SPeiming Liu///
e7df8281SPeiming Liu/// %sel = arith.select %cond, %sp1, %sp2
e7df8281SPeiming Liu///
e7df8281SPeiming Liu/// to
e7df8281SPeiming Liu///
e7df8281SPeiming Liu/// %sel = binary %sp1, %sp2:
e7df8281SPeiming Liu///         both  (%l, %r) {yield select %cond, %l, %r}
e7df8281SPeiming Liu///         left  (%l)     {yield select %cond, %l,  0}
e7df8281SPeiming Liu///         right (%r)     {yield select %cond,  0, %r}
e7df8281SPeiming Liu///
e7df8281SPeiming Liu/// TODO: We require that the tensor used for extracting conditions to be dense
e7df8281SPeiming Liu/// to sparsify the code. To support a sparse condition tensor, we need a
e7df8281SPeiming Liu/// tri-nary operation.
e7df8281SPeiming Liustruct GenSemiRingSelect : public OpRewritePattern<GenericOp> {
e7df8281SPeiming Liupublic:
e7df8281SPeiming Liu  using OpRewritePattern<GenericOp>::OpRewritePattern;
e7df8281SPeiming Liu  LogicalResult matchAndRewrite(GenericOp op,
e7df8281SPeiming Liu                                PatternRewriter &rewriter) const override {
e7df8281SPeiming Liu    // Rejects non sparse kernels.
0a8e3dd4SMatthias Springer    if (!op.hasPureTensorSemantics() || !hasAnySparseOperand(op))
e7df8281SPeiming Liu      return failure();
e7df8281SPeiming Liu
e7df8281SPeiming Liu    Location loc = op.getLoc();
e7df8281SPeiming Liu    SmallVector<std::pair<Operation *, sparse_tensor::BinaryOp>> semiRings;
e7df8281SPeiming Liu    for (Operation &inst : *op.getBody()) {
e7df8281SPeiming Liu      // Matches pattern.
e7df8281SPeiming Liu      auto matched = isRewritablePattern(op, &inst);
e7df8281SPeiming Liu      if (!matched.has_value())
e7df8281SPeiming Liu        continue;
e7df8281SPeiming Liu
e7df8281SPeiming Liu      rewriter.setInsertionPoint(&inst);
e7df8281SPeiming Liu      auto [c, t, f] = matched.value();
e7df8281SPeiming Liu      assert(t.getType() == f.getType());
e7df8281SPeiming Liu      auto selTp = t.getType();
e7df8281SPeiming Liu      auto c0 = constantZero(rewriter, loc, selTp);
e7df8281SPeiming Liu      auto binOp = rewriter.create<sparse_tensor::BinaryOp>(loc, selTp, t, f);
e7df8281SPeiming Liu      // Initializes all the blocks.
e7df8281SPeiming Liu      rewriter.createBlock(&binOp.getOverlapRegion(), {}, {selTp, selTp},
e7df8281SPeiming Liu                           {t.getLoc(), f.getLoc()});
e7df8281SPeiming Liu      rewriter.createBlock(&binOp.getRightRegion(), {}, selTp, f.getLoc());
e7df8281SPeiming Liu      rewriter.createBlock(&binOp.getLeftRegion(), {}, selTp, t.getLoc());
e7df8281SPeiming Liu
e7df8281SPeiming Liu      for (auto *r : binOp.getRegions()) {
e7df8281SPeiming Liu        Block *b = &r->front();
e7df8281SPeiming Liu        rewriter.setInsertionPointToStart(b);
e7df8281SPeiming Liu
e7df8281SPeiming Liu        IRMapping irMap;
e7df8281SPeiming Liu        // Clones the cmp operations into the region to make the binary op
e7df8281SPeiming Liu        // admissible.
e7df8281SPeiming Liu        Value newC = c;
e7df8281SPeiming Liu        if (auto *def = c.getDefiningOp())
e7df8281SPeiming Liu          newC = rewriter.clone(*def, irMap)->getResult(0);
e7df8281SPeiming Liu
e7df8281SPeiming Liu        irMap.map(c, newC);
e7df8281SPeiming Liu        if (r == &binOp.getLeftRegion()) {
e7df8281SPeiming Liu          irMap.map(t, b->getArgument(0));
e7df8281SPeiming Liu          irMap.map(f, c0);
e7df8281SPeiming Liu        } else if (r == &binOp.getRightRegion()) {
e7df8281SPeiming Liu          irMap.map(t, c0);
e7df8281SPeiming Liu          irMap.map(f, b->getArgument(0));
e7df8281SPeiming Liu        } else {
e7df8281SPeiming Liu          irMap.map(t, b->getArgument(0));
e7df8281SPeiming Liu          irMap.map(f, b->getArgument(1));
e7df8281SPeiming Liu        }
e7df8281SPeiming Liu        auto y = rewriter.clone(inst, irMap)->getResult(0);
e7df8281SPeiming Liu        rewriter.create<sparse_tensor::YieldOp>(loc, y);
e7df8281SPeiming Liu      }
e7df8281SPeiming Liu
e7df8281SPeiming Liu      // We successfully rewrited a operation. We can not do replacement here
e7df8281SPeiming Liu      // becuase it invalidate the iterator for the current loop to traverse
e7df8281SPeiming Liu      // the instructions.
e7df8281SPeiming Liu      semiRings.emplace_back(&inst, binOp);
e7df8281SPeiming Liu    }
e7df8281SPeiming Liu
e7df8281SPeiming Liu    // Finalizes the replacement.
e7df8281SPeiming Liu    for (auto [sel, semi] : semiRings)
e7df8281SPeiming Liu      rewriter.replaceOp(sel, semi->getResults());
e7df8281SPeiming Liu
e7df8281SPeiming Liu    return success(!semiRings.empty());
e7df8281SPeiming Liu  }
e7df8281SPeiming Liu
e7df8281SPeiming Liuprivate:
e7df8281SPeiming Liu  static std::optional<std::tuple<Value, BlockArgument, BlockArgument>>
e7df8281SPeiming Liu  isRewritablePattern(GenericOp op, Operation *v) {
e7df8281SPeiming Liu    auto sel = dyn_cast<arith::SelectOp>(v);
e7df8281SPeiming Liu    if (!sel)
e7df8281SPeiming Liu      return std::nullopt;
e7df8281SPeiming Liu
a5757c5bSChristian Sigg    auto tVal = dyn_cast<BlockArgument>(sel.getTrueValue());
a5757c5bSChristian Sigg    auto fVal = dyn_cast<BlockArgument>(sel.getFalseValue());
e7df8281SPeiming Liu    // TODO: For simplicity, we only handle cases where both true/false value
e7df8281SPeiming Liu    // are directly loaded the input tensor. We can probably admit more cases
e7df8281SPeiming Liu    // in theory.
e7df8281SPeiming Liu    if (!tVal || !fVal)
e7df8281SPeiming Liu      return std::nullopt;
e7df8281SPeiming Liu
e7df8281SPeiming Liu    // Helper lambda to determine whether the value is loaded from a dense input
e7df8281SPeiming Liu    // or is a loop invariant.
e7df8281SPeiming Liu    auto isValFromDenseInputOrInvariant = [&op](Value v) -> bool {
a5757c5bSChristian Sigg      if (auto bArg = dyn_cast<BlockArgument>(v);
e7df8281SPeiming Liu          bArg && !isSparseTensor(op.getDpsInputOperand(bArg.getArgNumber())))
e7df8281SPeiming Liu        return true;
e7df8281SPeiming Liu      // If the value is defined outside the loop, it is a loop invariant.
e7df8281SPeiming Liu      return v.getDefiningOp() && v.getDefiningOp()->getBlock() != op.getBody();
e7df8281SPeiming Liu    };
e7df8281SPeiming Liu
e7df8281SPeiming Liu    // If the condition value is load directly from a dense tensor or
e7df8281SPeiming Liu    // loop-invariants, we can sparsify the kernel.
e7df8281SPeiming Liu    auto cond = sel.getCondition();
e7df8281SPeiming Liu    if (isValFromDenseInputOrInvariant(cond))
e7df8281SPeiming Liu      return std::make_tuple(cond, tVal, fVal);
e7df8281SPeiming Liu
e7df8281SPeiming Liu    Value cmpL, cmpR;
e7df8281SPeiming Liu    if (matchPattern(cond, m_Op<arith::CmpIOp>(matchers::m_Any(&cmpL),
e7df8281SPeiming Liu                                               matchers::m_Any(&cmpR))) ||
e7df8281SPeiming Liu        matchPattern(cond, m_Op<arith::CmpFOp>(matchers::m_Any(&cmpL),
e7df8281SPeiming Liu                                               matchers::m_Any(&cmpR)))) {
e7df8281SPeiming Liu      // TODO: we can do it recursively to check whether all the leaf values are
e7df8281SPeiming Liu      // loaded from dense tensors or are loop invariants.
e7df8281SPeiming Liu      if (isValFromDenseInputOrInvariant(cmpL) ||
e7df8281SPeiming Liu          isValFromDenseInputOrInvariant(cmpR))
e7df8281SPeiming Liu        return std::make_tuple(cond, tVal, fVal);
e7df8281SPeiming Liu    }
e7df8281SPeiming Liu
e7df8281SPeiming Liu    return std::nullopt;
e7df8281SPeiming Liu  };
e7df8281SPeiming Liu};
e7df8281SPeiming Liu
80fe3168SAart Bik/// Rewrites a sparse reduction that would not sparsify directly since
80fe3168SAart Bik/// doing so would only iterate over the stored elements, ignoring the
80fe3168SAart Bik/// implicit zeros, into a semi-ring. Applies to all prod/and/min/max
80fe3168SAart Bik/// (note that reductions like add/sub/or/xor can directly be sparsified
80fe3168SAart Bik/// since the implicit zeros do not contribute to the final result).
80fe3168SAart Bik/// Note that prod/and are still included since, even though they often
80fe3168SAart Bik/// are nullified in sparse data, they may still occur for special
80fe3168SAart Bik/// situations in which e.g. some rows in a sparse matrix are fully
80fe3168SAart Bik/// dense. For min/max, including the implicit zeros is a much more
80fe3168SAart Bik/// common situation.
80fe3168SAart Bik///
80fe3168SAart Bik/// TODO: this essentially "densifies" the operation; we want to implement
80fe3168SAart Bik///       this much more efficiently by performing the reduction over the
80fe3168SAart Bik///       stored values, and feed in the zero once if there were *any*
80fe3168SAart Bik///       implicit zeros as well; but for now, at least we provide
80fe3168SAart Bik///       the functionality
80fe3168SAart Bik///
80fe3168SAart Bikstruct GenSemiRingReduction : public OpRewritePattern<GenericOp> {
80fe3168SAart Bikpublic:
80fe3168SAart Bik  using OpRewritePattern<GenericOp>::OpRewritePattern;
80fe3168SAart Bik
80fe3168SAart Bik  LogicalResult matchAndRewrite(GenericOp op,
80fe3168SAart Bik                                PatternRewriter &rewriter) const override {
80fe3168SAart Bik    // Reject non-reductions.
0a8e3dd4SMatthias Springer    if (!op.hasPureTensorSemantics() || op.getNumDpsInputs() != 1 ||
80fe3168SAart Bik        op.getNumReductionLoops() == 0 || op.getNumResults() != 1)
80fe3168SAart Bik      return failure();
61f64d1cSMehdi Amini    auto *inp = op.getDpsInputOperand(0);
61f64d1cSMehdi Amini    auto *init = op.getDpsInitOperand(0);
80fe3168SAart Bik    if (!isSparseTensor(inp))
80fe3168SAart Bik      return failure();
80fe3168SAart Bik    // Look for direct x = x OP y for semi-ring ready reductions.
61f64d1cSMehdi Amini    auto *red = cast<linalg::YieldOp>(op.getRegion().front().getTerminator())
80fe3168SAart Bik                    .getOperand(0)
80fe3168SAart Bik                    .getDefiningOp();
8a6e54c9SDaniil Dudkin    if (!isa<arith::AndIOp, arith::MulIOp, arith::MulFOp, arith::MinimumFOp,
8a6e54c9SDaniil Dudkin             arith::MinSIOp, arith::MinUIOp, arith::MaximumFOp, arith::MaxSIOp,
80fe3168SAart Bik             arith::MaxUIOp>(red))
80fe3168SAart Bik      return failure();
80fe3168SAart Bik    Value s0 = op.getBlock()->getArgument(0);
80fe3168SAart Bik    Value s1 = op.getBlock()->getArgument(1);
80fe3168SAart Bik    if ((red->getOperand(0) != s0 || red->getOperand(1) != s1) &&
80fe3168SAart Bik        (red->getOperand(0) != s1 || red->getOperand(1) != s0))
80fe3168SAart Bik      return failure();
80fe3168SAart Bik    // Identity.
80fe3168SAart Bik    Location loc = op.getLoc();
80fe3168SAart Bik    Value identity =
80fe3168SAart Bik        rewriter.create<tensor::ExtractOp>(loc, init->get(), ValueRange());
80fe3168SAart Bik    // Unary {
80fe3168SAart Bik    //    present -> value
80fe3168SAart Bik    //    absent  -> zero.
80fe3168SAart Bik    // }
80fe3168SAart Bik    Type rtp = s0.getType();
80fe3168SAart Bik    rewriter.setInsertionPointToStart(&op.getRegion().front());
80fe3168SAart Bik    auto semiring = rewriter.create<sparse_tensor::UnaryOp>(loc, rtp, s0);
80fe3168SAart Bik    Block *present =
80fe3168SAart Bik        rewriter.createBlock(&semiring.getPresentRegion(), {}, rtp, loc);
80fe3168SAart Bik    rewriter.setInsertionPointToStart(&semiring.getPresentRegion().front());
80fe3168SAart Bik    rewriter.create<sparse_tensor::YieldOp>(loc, present->getArgument(0));
80fe3168SAart Bik    rewriter.createBlock(&semiring.getAbsentRegion(), {}, {}, {});
80fe3168SAart Bik    rewriter.setInsertionPointToStart(&semiring.getAbsentRegion().front());
80fe3168SAart Bik    auto zero =
80fe3168SAart Bik        rewriter.create<arith::ConstantOp>(loc, rewriter.getZeroAttr(rtp));
80fe3168SAart Bik    rewriter.create<sparse_tensor::YieldOp>(loc, zero);
80fe3168SAart Bik    rewriter.setInsertionPointAfter(semiring);
80fe3168SAart Bik    // CustomReduce {
80fe3168SAart Bik    //    x = x REDUC y, identity
80fe3168SAart Bik    // }
80fe3168SAart Bik    auto custom = rewriter.create<sparse_tensor::ReduceOp>(
80fe3168SAart Bik        loc, rtp, semiring.getResult(), s1, identity);
80fe3168SAart Bik    Block *region =
80fe3168SAart Bik        rewriter.createBlock(&custom.getRegion(), {}, {rtp, rtp}, {loc, loc});
80fe3168SAart Bik    rewriter.setInsertionPointToStart(&custom.getRegion().front());
80fe3168SAart Bik    IRMapping irMap;
80fe3168SAart Bik    irMap.map(red->getOperand(0), region->getArgument(0));
80fe3168SAart Bik    irMap.map(red->getOperand(1), region->getArgument(1));
61f64d1cSMehdi Amini    auto *cloned = rewriter.clone(*red, irMap);
80fe3168SAart Bik    rewriter.create<sparse_tensor::YieldOp>(loc, cloned->getResult(0));
80fe3168SAart Bik    rewriter.setInsertionPointAfter(custom);
80fe3168SAart Bik    rewriter.replaceOp(red, custom.getResult());
80fe3168SAart Bik    return success();
80fe3168SAart Bik  }
80fe3168SAart Bik};
80fe3168SAart Bik
d37affb0SAart Bik/// Sparse rewriting rule for the print operator. This operation is mainly used
d37affb0SAart Bik/// for debugging and testing. As such, it lowers to the vector.print operation
d37affb0SAart Bik/// which only require very light-weight runtime support.
d37affb0SAart Bikstruct PrintRewriter : public OpRewritePattern<PrintOp> {
d37affb0SAart Bikpublic:
d37affb0SAart Bik  using OpRewritePattern::OpRewritePattern;
d37affb0SAart Bik  LogicalResult matchAndRewrite(PrintOp op,
d37affb0SAart Bik                                PatternRewriter &rewriter) const override {
d37affb0SAart Bik    Location loc = op.getLoc();
d37affb0SAart Bik    auto tensor = op.getTensor();
d37affb0SAart Bik    auto stt = getSparseTensorType(tensor);
d37affb0SAart Bik    // Header with NSE.
d37affb0SAart Bik    auto nse = rewriter.create<NumberOfEntriesOp>(loc, tensor);
d37affb0SAart Bik    rewriter.create<vector::PrintOp>(
d37affb0SAart Bik        loc, rewriter.getStringAttr("---- Sparse Tensor ----\nnse = "));
d37affb0SAart Bik    rewriter.create<vector::PrintOp>(loc, nse);
691fc7cdSAart Bik    // Print run-time contents for dim/lvl sizes.
691fc7cdSAart Bik    rewriter.create<vector::PrintOp>(loc, rewriter.getStringAttr("dim = "));
691fc7cdSAart Bik    printSizes(rewriter, loc, tensor, stt.getDimRank(), /*isDim=*/true);
691fc7cdSAart Bik    rewriter.create<vector::PrintOp>(loc, rewriter.getStringAttr("lvl = "));
691fc7cdSAart Bik    printSizes(rewriter, loc, tensor, stt.getLvlRank(), /*isDim=*/false);
d37affb0SAart Bik    // Use the "codegen" foreach loop construct to iterate over
d37affb0SAart Bik    // all typical sparse tensor components for printing.
6bc7c9dfSPeiming Liu    foreachFieldAndTypeInSparseTensor(stt, [&rewriter, &loc, &tensor,
6bc7c9dfSPeiming Liu                                            &stt](Type, FieldIndex,
d37affb0SAart Bik                                                  SparseTensorFieldKind kind,
d37affb0SAart Bik                                                  Level l, LevelType) {
d37affb0SAart Bik      switch (kind) {
d37affb0SAart Bik      case SparseTensorFieldKind::StorageSpec: {
d37affb0SAart Bik        break;
d37affb0SAart Bik      }
d37affb0SAart Bik      case SparseTensorFieldKind::PosMemRef: {
d37affb0SAart Bik        auto lvl = constantIndex(rewriter, loc, l);
d37affb0SAart Bik        rewriter.create<vector::PrintOp>(loc, rewriter.getStringAttr("pos["));
d37affb0SAart Bik        rewriter.create<vector::PrintOp>(
d37affb0SAart Bik            loc, lvl, vector::PrintPunctuation::NoPunctuation);
d37affb0SAart Bik        rewriter.create<vector::PrintOp>(loc, rewriter.getStringAttr("] : "));
6bc7c9dfSPeiming Liu        auto pos = rewriter.create<ToPositionsOp>(loc, tensor, l);
6bc7c9dfSPeiming Liu        printContents(rewriter, loc, pos);
d37affb0SAart Bik        break;
d37affb0SAart Bik      }
d37affb0SAart Bik      case SparseTensorFieldKind::CrdMemRef: {
d37affb0SAart Bik        auto lvl = constantIndex(rewriter, loc, l);
d37affb0SAart Bik        rewriter.create<vector::PrintOp>(loc, rewriter.getStringAttr("crd["));
d37affb0SAart Bik        rewriter.create<vector::PrintOp>(
d37affb0SAart Bik            loc, lvl, vector::PrintPunctuation::NoPunctuation);
d37affb0SAart Bik        rewriter.create<vector::PrintOp>(loc, rewriter.getStringAttr("] : "));
6bc7c9dfSPeiming Liu        Value crd = nullptr;
dc4cfdbbSAart Bik        // For COO AoS storage, we want to print a single, linear view of
dc4cfdbbSAart Bik        // the full coordinate storage at this level. For any other storage,
dc4cfdbbSAart Bik        // we show the coordinate storage for every indivual level.
6bc7c9dfSPeiming Liu        if (stt.getAoSCOOStart() == l)
6bc7c9dfSPeiming Liu          crd = rewriter.create<ToCoordinatesBufferOp>(loc, tensor);
6bc7c9dfSPeiming Liu        else
6bc7c9dfSPeiming Liu          crd = rewriter.create<ToCoordinatesOp>(loc, tensor, l);
6bc7c9dfSPeiming Liu        printContents(rewriter, loc, crd);
d37affb0SAart Bik        break;
d37affb0SAart Bik      }
d37affb0SAart Bik      case SparseTensorFieldKind::ValMemRef: {
d37affb0SAart Bik        rewriter.create<vector::PrintOp>(loc,
d37affb0SAart Bik                                         rewriter.getStringAttr("values : "));
6bc7c9dfSPeiming Liu        auto val = rewriter.create<ToValuesOp>(loc, tensor);
6bc7c9dfSPeiming Liu        printContents(rewriter, loc, val);
d37affb0SAart Bik        break;
d37affb0SAart Bik      }
d37affb0SAart Bik      }
d37affb0SAart Bik      return true;
d37affb0SAart Bik    });
d37affb0SAart Bik    rewriter.create<vector::PrintOp>(loc, rewriter.getStringAttr("----\n"));
d37affb0SAart Bik    rewriter.eraseOp(op);
d37affb0SAart Bik    return success();
d37affb0SAart Bik  }
d37affb0SAart Bik
d37affb0SAart Bikprivate:
c4e5a8a4SAart Bik  // Helper to print contents of a single memref. For "push_back" vectors,
c4e5a8a4SAart Bik  // we assume that the previous getters for pos/crd/val have added a
c4e5a8a4SAart Bik  // slice-to-size view to make sure we just print the size and not the
c4e5a8a4SAart Bik  // full capacity.
d37affb0SAart Bik  //
c4e5a8a4SAart Bik  // Generates code to print (1-dim or higher):
d37affb0SAart Bik  //    ( a0, a1, ... )
6bc7c9dfSPeiming Liu  static void printContents(PatternRewriter &rewriter, Location loc,
d37affb0SAart Bik                            Value vec) {
c4e5a8a4SAart Bik    auto shape = cast<ShapedType>(vec.getType()).getShape();
c4e5a8a4SAart Bik    SmallVector<Value> idxs;
c4e5a8a4SAart Bik    printContentsLevel(rewriter, loc, vec, 0, shape, idxs);
c4e5a8a4SAart Bik    rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::NewLine);
c4e5a8a4SAart Bik  }
c4e5a8a4SAart Bik
c4e5a8a4SAart Bik  // Helper to the helper.
c4e5a8a4SAart Bik  static void printContentsLevel(PatternRewriter &rewriter, Location loc,
c4e5a8a4SAart Bik                                 Value vec, unsigned i, ArrayRef<int64_t> shape,
c4e5a8a4SAart Bik                                 SmallVectorImpl<Value> &idxs) {
d37affb0SAart Bik    // Open bracket.
d37affb0SAart Bik    rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::Open);
c4e5a8a4SAart Bik    // Generate for loop.
d37affb0SAart Bik    auto zero = constantIndex(rewriter, loc, 0);
c4e5a8a4SAart Bik    auto index = constantIndex(rewriter, loc, i);
c4e5a8a4SAart Bik    auto size = rewriter.create<memref::DimOp>(loc, vec, index);
d37affb0SAart Bik    auto step = constantIndex(rewriter, loc, 1);
d37affb0SAart Bik    auto forOp = rewriter.create<scf::ForOp>(loc, zero, size, step);
c4e5a8a4SAart Bik    idxs.push_back(forOp.getInductionVar());
d37affb0SAart Bik    rewriter.setInsertionPointToStart(forOp.getBody());
c4e5a8a4SAart Bik    if (i < shape.size() - 1) {
c4e5a8a4SAart Bik      // Enter deeper loop nest.
c4e5a8a4SAart Bik      printContentsLevel(rewriter, loc, vec, i + 1, shape, idxs);
c4e5a8a4SAart Bik    } else {
c4e5a8a4SAart Bik      // Actual contents printing.
c4e5a8a4SAart Bik      auto val = rewriter.create<memref::LoadOp>(loc, vec, idxs);
275fe3aeSAart Bik      if (llvm::isa<ComplexType>(val.getType())) {
275fe3aeSAart Bik        // Since the vector dialect does not support complex types in any op,
275fe3aeSAart Bik        // we split those into (real, imag) pairs here.
275fe3aeSAart Bik        Value real = rewriter.create<complex::ReOp>(loc, val);
275fe3aeSAart Bik        Value imag = rewriter.create<complex::ImOp>(loc, val);
275fe3aeSAart Bik        rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::Open);
275fe3aeSAart Bik        rewriter.create<vector::PrintOp>(loc, real,
275fe3aeSAart Bik                                         vector::PrintPunctuation::Comma);
275fe3aeSAart Bik        rewriter.create<vector::PrintOp>(loc, imag,
275fe3aeSAart Bik                                         vector::PrintPunctuation::Close);
275fe3aeSAart Bik      } else {
eb177803SYinying Li        rewriter.create<vector::PrintOp>(
eb177803SYinying Li            loc, val, vector::PrintPunctuation::NoPunctuation);
275fe3aeSAart Bik      }
eb177803SYinying Li      // Terminating comma (except at end).
eb177803SYinying Li      auto bound = rewriter.create<arith::AddIOp>(loc, idxs.back(), step);
eb177803SYinying Li      Value cond = rewriter.create<arith::CmpIOp>(loc, arith::CmpIPredicate::ne,
eb177803SYinying Li                                                  bound, size);
eb177803SYinying Li      scf::IfOp ifOp = rewriter.create<scf::IfOp>(loc, cond, /*else*/ false);
eb177803SYinying Li      rewriter.setInsertionPointToStart(&ifOp.getThenRegion().front());
eb177803SYinying Li      rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::Comma);
c4e5a8a4SAart Bik    }
c4e5a8a4SAart Bik    idxs.pop_back();
d37affb0SAart Bik    rewriter.setInsertionPointAfter(forOp);
c4e5a8a4SAart Bik    // Close bracket.
d37affb0SAart Bik    rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::Close);
d37affb0SAart Bik  }
691fc7cdSAart Bik
691fc7cdSAart Bik  // Helper method to print run-time lvl/dim sizes.
691fc7cdSAart Bik  static void printSizes(PatternRewriter &rewriter, Location loc, Value tensor,
691fc7cdSAart Bik                         unsigned size, bool isDim) {
691fc7cdSAart Bik    // Open bracket.
691fc7cdSAart Bik    rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::Open);
691fc7cdSAart Bik    // Print unrolled contents (dimop requires constant value).
691fc7cdSAart Bik    for (unsigned i = 0; i < size; i++) {
691fc7cdSAart Bik      auto idx = constantIndex(rewriter, loc, i);
691fc7cdSAart Bik      Value val;
691fc7cdSAart Bik      if (isDim)
691fc7cdSAart Bik        val = rewriter.create<tensor::DimOp>(loc, tensor, idx);
691fc7cdSAart Bik      else
691fc7cdSAart Bik        val = rewriter.create<LvlOp>(loc, tensor, idx);
691fc7cdSAart Bik      rewriter.create<vector::PrintOp>(
691fc7cdSAart Bik          loc, val,
691fc7cdSAart Bik          i != size - 1 ? vector::PrintPunctuation::Comma
691fc7cdSAart Bik                        : vector::PrintPunctuation::NoPunctuation);
691fc7cdSAart Bik    }
691fc7cdSAart Bik    // Close bracket and end of line.
691fc7cdSAart Bik    rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::Close);
691fc7cdSAart Bik    rewriter.create<vector::PrintOp>(loc, vector::PrintPunctuation::NewLine);
691fc7cdSAart Bik  }
d37affb0SAart Bik};
d37affb0SAart Bik
330d48c4Sbixia1/// Sparse rewriting rule for sparse-to-sparse reshape operator.
6116ca67SAnlun Xustruct TensorReshapeRewriter : public OpRewritePattern<tensor::ReshapeOp> {
6116ca67SAnlun Xupublic:
6116ca67SAnlun Xu  using OpRewritePattern<tensor::ReshapeOp>::OpRewritePattern;
6116ca67SAnlun Xu
6116ca67SAnlun Xu  LogicalResult matchAndRewrite(tensor::ReshapeOp op,
6116ca67SAnlun Xu                                PatternRewriter &rewriter) const override {
6116ca67SAnlun Xu    Location loc = op.getLoc();
6116ca67SAnlun Xu    Value srcTensor = op.getSource();
*129ade21SLongsheng Mou    const auto srcTp = tryGetSparseTensorType(srcTensor);
*129ade21SLongsheng Mou    const auto dstTp = tryGetSparseTensorType(op.getResult());
*129ade21SLongsheng Mou    if (!srcTp || !dstTp)
*129ade21SLongsheng Mou      return failure();
6116ca67SAnlun Xu
*129ade21SLongsheng Mou    if (!srcTp->hasEncoding() || !dstTp->hasEncoding() ||
*129ade21SLongsheng Mou        !dstTp->hasStaticDimShape())
6116ca67SAnlun Xu      return failure();
6116ca67SAnlun Xu
6116ca67SAnlun Xu    SmallVector<Value> srcSizes;
*129ade21SLongsheng Mou    sizesForTensor(rewriter, srcSizes, loc, *srcTp, srcTensor);
6116ca67SAnlun Xu    SmallVector<Value> dstSizes;
*129ade21SLongsheng Mou    for (Dimension d : dstTp->getDimShape())
6116ca67SAnlun Xu      dstSizes.push_back(constantIndex(rewriter, loc, d));
6116ca67SAnlun Xu
6116ca67SAnlun Xu    Value nnz = rewriter.create<NumberOfEntriesOp>(loc, srcTensor);
6116ca67SAnlun Xu    // Only need an unordered COO buffer if input and output are not sorted
6116ca67SAnlun Xu    // in the same way.
76647fceSwren romano    Type bufferTp = getBufferType(
*129ade21SLongsheng Mou        dstTp->withoutDimToLvl(),
*129ade21SLongsheng Mou        !srcTp->isAllOrdered() || !srcTp->isIdentity() || !dstTp->isIdentity());
6116ca67SAnlun Xu    SmallVector<Value> dynSizes;
6116ca67SAnlun Xu    Value buffer = rewriter
6116ca67SAnlun Xu                       .create<AllocTensorOp>(loc, bufferTp, dynSizes, Value(),
6116ca67SAnlun Xu                                              nnz, Attribute())
6116ca67SAnlun Xu                       .getResult();
6116ca67SAnlun Xu
6116ca67SAnlun Xu    // Convert src coordinates to dst coordinates by first collapsing it to 1D
6116ca67SAnlun Xu    // and then expand it to the match the rank of the destination tensor.
6116ca67SAnlun Xu    // Implemented as follows:
6116ca67SAnlun Xu    //   foreach srcCoords %srcTensor
6116ca67SAnlun Xu    //     collapsedCoords = reshapeCvs(srcCoords, [1, ..., srcRank])
6116ca67SAnlun Xu    //     expandedCoords = reshapeCvs(collapsedCoords, [1, ..., dstRank])
6116ca67SAnlun Xu    //     insert expandedCoords, %buffer
6116ca67SAnlun Xu    //
6116ca67SAnlun Xu    // followed by an optional
6116ca67SAnlun Xu    //   %t = sparse_tensor.cast %tmp
6116ca67SAnlun Xu    // depending on whether the input/output are sorted in the same way.
*129ade21SLongsheng Mou    const auto encSrc = srcTp->getEncoding();
6116ca67SAnlun Xu    ForeachOp foreachOp = rewriter.create<ForeachOp>(
6116ca67SAnlun Xu        loc, srcTensor, buffer,
6116ca67SAnlun Xu        [&](OpBuilder &builder, Location loc, ValueRange srcLcvs, Value v,
6116ca67SAnlun Xu            ValueRange reduc) {
*129ade21SLongsheng Mou          const Dimension srcRank = srcTp->getDimRank();
6116ca67SAnlun Xu          SmallVector<Value> srcDcvs;
6116ca67SAnlun Xu          srcDcvs.reserve(srcRank);
6116ca67SAnlun Xu          for (Dimension d = 0; d < srcRank; d++) {
4e2f1521SPeiming Liu            Level lvl = toLvl(encSrc, d);
6116ca67SAnlun Xu            srcDcvs.push_back(srcLcvs[lvl]);
6116ca67SAnlun Xu          }
6116ca67SAnlun Xu
eb14f47bSPeiming Liu          Value collapseSize = constantIndex(builder, loc, 1);
6116ca67SAnlun Xu          for (Dimension d = 0; d < srcRank; d++)
eb14f47bSPeiming Liu            collapseSize =
eb14f47bSPeiming Liu                builder.create<arith::MulIOp>(loc, collapseSize, srcSizes[d]);
eb14f47bSPeiming Liu          SmallVector<Value, 1> collapsedSizes = {collapseSize};
6116ca67SAnlun Xu
eb14f47bSPeiming Liu          ReassociationIndices collapseIdx;
6116ca67SAnlun Xu          for (Dimension i = 0; i < srcRank; i++)
eb14f47bSPeiming Liu            collapseIdx.push_back(i);
eb14f47bSPeiming Liu          SmallVector<ReassociationIndices, 1> collapseReass = {collapseIdx};
6116ca67SAnlun Xu          SmallVector<Value, 1> collapsedDcvs;
eb14f47bSPeiming Liu          reshapeCvs(builder, loc, collapseReass, srcSizes, srcDcvs,
6116ca67SAnlun Xu                     collapsedSizes, collapsedDcvs);
6116ca67SAnlun Xu
eb14f47bSPeiming Liu          ReassociationIndices expandIdx;
*129ade21SLongsheng Mou          for (Dimension i = 0; i < dstTp->getDimRank(); i++)
eb14f47bSPeiming Liu            expandIdx.push_back(i);
eb14f47bSPeiming Liu          SmallVector<ReassociationIndices, 1> expandReass = {expandIdx};
6116ca67SAnlun Xu          SmallVector<Value> dstDcvs;
eb14f47bSPeiming Liu          reshapeCvs(builder, loc, expandReass, collapsedSizes, collapsedDcvs,
eb14f47bSPeiming Liu                     dstSizes, dstDcvs);
6116ca67SAnlun Xu
94e27c26SPeiming Liu          auto t =
94e27c26SPeiming Liu              builder.create<tensor::InsertOp>(loc, v, reduc.front(), dstDcvs);
6116ca67SAnlun Xu          builder.create<sparse_tensor::YieldOp>(loc, t);
6116ca67SAnlun Xu        });
6116ca67SAnlun Xu
6116ca67SAnlun Xu    Value t = rewriter.create<LoadOp>(loc, foreachOp.getResult(0), true);
*129ade21SLongsheng Mou    if (bufferTp != *dstTp) {
*129ade21SLongsheng Mou      auto dstRTT = dstTp->getRankedTensorType();
6116ca67SAnlun Xu      Value converted = rewriter.create<ConvertOp>(loc, dstRTT, t).getResult();
6116ca67SAnlun Xu      rewriter.create<DeallocTensorOp>(loc, t);
6116ca67SAnlun Xu      t = converted;
6116ca67SAnlun Xu    }
6116ca67SAnlun Xu    rewriter.replaceOp(op, t);
6116ca67SAnlun Xu    return success();
6116ca67SAnlun Xu  }
6116ca67SAnlun Xu};
6116ca67SAnlun Xu
6116ca67SAnlun Xu/// Sparse rewriting rule for sparse-to-sparse reshape operator.
330d48c4Sbixia1template <typename ReshapeOp>
330d48c4Sbixia1struct Sparse2SparseReshapeRewriter : public OpRewritePattern<ReshapeOp> {
330d48c4Sbixia1public:
330d48c4Sbixia1  using OpRewritePattern<ReshapeOp>::OpRewritePattern;
330d48c4Sbixia1
330d48c4Sbixia1  LogicalResult matchAndRewrite(ReshapeOp op,
330d48c4Sbixia1                                PatternRewriter &rewriter) const override {
330d48c4Sbixia1    Location loc = op.getLoc();
330d48c4Sbixia1    Value srcTensor = op.getSrc();
f2696e46Swren romano    const auto srcTp = getSparseTensorType(srcTensor);
f2696e46Swren romano    const auto dstTp = getSparseTensorType(op.getResult());
f2696e46Swren romano    if (!srcTp.hasEncoding() || !dstTp.hasEncoding())
330d48c4Sbixia1      return failure();
330d48c4Sbixia1
330d48c4Sbixia1    // Generate code to represent the static dimension constants or compute
330d48c4Sbixia1    // the dynamic dimension values.
0e1708ffSAart Bik    SmallVector<Value> srcSizes;
330d48c4Sbixia1    sizesForTensor(rewriter, srcSizes, loc, srcTp, srcTensor);
0e1708ffSAart Bik    SmallVector<Value> dstSizes;
0e1708ffSAart Bik    SmallVector<Value> dstDynSizes;
f2696e46Swren romano    if (dstTp.hasStaticDimShape()) {
f2696e46Swren romano      for (Dimension d : dstTp.getDimShape())
330d48c4Sbixia1        dstSizes.push_back(constantIndex(rewriter, loc, d));
330d48c4Sbixia1    } else {
22212ca7SAart Bik      ArrayRef<Size> dstShape = dstTp.getDimShape();
9d4df97fSwren romano      genReshapeDstShape(rewriter, loc, dstSizes, srcSizes, dstShape,
330d48c4Sbixia1                         op.getReassociationIndices());
8c258fdaSJakub Kuderski      for (auto [idx, shape] : llvm::enumerate(dstShape)) {
8c258fdaSJakub Kuderski        if (shape == ShapedType::kDynamic)
8c258fdaSJakub Kuderski          dstDynSizes.push_back(dstSizes[idx]);
330d48c4Sbixia1      }
330d48c4Sbixia1    }
3bd82f30SAart Bik    Value nnz = rewriter.create<NumberOfEntriesOp>(loc, srcTensor);
c24547e9SPeiming Liu    // Only need a unordered COO buffer if input and output are not sorted
c24547e9SPeiming Liu    // in the same way.
76647fceSwren romano    Type bufferTp = getBufferType(
76647fceSwren romano        dstTp.withoutDimToLvl(),
76647fceSwren romano        !srcTp.isAllOrdered() || !srcTp.isIdentity() || !dstTp.isIdentity());
c24547e9SPeiming Liu
c24547e9SPeiming Liu    Value buffer =
3bd82f30SAart Bik        rewriter
c24547e9SPeiming Liu            .create<AllocTensorOp>(loc, bufferTp, dstDynSizes, Value(),
3bd82f30SAart Bik                                   /*sizeHint=*/nnz, Attribute())
3bd82f30SAart Bik            .getResult();
3bd82f30SAart Bik
c24547e9SPeiming Liu    // Implement the sparse2sparse reshape as follows:
c24547e9SPeiming Liu    //   foreach srcCoords %srcTensor
c24547e9SPeiming Liu    //     insert reshapeCvs(srcCoords), %buffer
c24547e9SPeiming Liu    //
c24547e9SPeiming Liu    // followed by an optional
c24547e9SPeiming Liu    //   %t = sparse_tensor.cast %tmp
c24547e9SPeiming Liu    // depending on whether the input/output are sorted in the same way.
f2696e46Swren romano    const auto encSrc = srcTp.getEncoding();
4fa00ce1SPeiming Liu    ForeachOp foreachOp = rewriter.create<ForeachOp>(
c24547e9SPeiming Liu        loc, srcTensor, buffer,
84cd51bbSwren romano        [&](OpBuilder &builder, Location loc, ValueRange srcLcvs, Value v,
4fa00ce1SPeiming Liu            ValueRange reduc) {
f2696e46Swren romano          const Dimension dimRank = srcTp.getDimRank();
84cd51bbSwren romano          SmallVector<Value> srcDcvs;
84cd51bbSwren romano          srcDcvs.reserve(dimRank);
84cd51bbSwren romano          for (Dimension d = 0; d < dimRank; d++) {
4e2f1521SPeiming Liu            Level lvl = toLvl(encSrc, d);
84cd51bbSwren romano            srcDcvs.push_back(srcLcvs[lvl]);
330d48c4Sbixia1          }
84cd51bbSwren romano          SmallVector<Value> dstDcvs;
84cd51bbSwren romano          reshapeCvs(builder, loc, op.getReassociationIndices(), srcSizes,
84cd51bbSwren romano                     srcDcvs, dstSizes, dstDcvs);
94e27c26SPeiming Liu          auto t =
94e27c26SPeiming Liu              builder.create<tensor::InsertOp>(loc, v, reduc.front(), dstDcvs);
4fa00ce1SPeiming Liu          builder.create<sparse_tensor::YieldOp>(loc, t);
330d48c4Sbixia1        });
c24547e9SPeiming Liu
c24547e9SPeiming Liu    Value t = rewriter.create<LoadOp>(loc, foreachOp.getResult(0), true);
c24547e9SPeiming Liu    if (bufferTp != dstTp) {
f2696e46Swren romano      auto dstRTT = dstTp.getRankedTensorType();
f2696e46Swren romano      Value converted = rewriter.create<ConvertOp>(loc, dstRTT, t).getResult();
8ffdcc59SPeiming Liu      rewriter.create<DeallocTensorOp>(loc, t);
c24547e9SPeiming Liu      t = converted;
c24547e9SPeiming Liu    }
c24547e9SPeiming Liu    rewriter.replaceOp(op, t);
330d48c4Sbixia1    return success();
330d48c4Sbixia1  }
330d48c4Sbixia1};
330d48c4Sbixia1
330d48c4Sbixia1/// Sparse rewriting rule for sparse-to-dense and dense-to-sparse reshape
330d48c4Sbixia1/// operator.
28ebb0b6SAart Biktemplate <typename ReshapeOp>
28ebb0b6SAart Bikstruct ReshapeRewriter : public OpRewritePattern<ReshapeOp> {
28ebb0b6SAart Bikpublic:
28ebb0b6SAart Bik  using OpRewritePattern<ReshapeOp>::OpRewritePattern;
28ebb0b6SAart Bik
28ebb0b6SAart Bik  LogicalResult matchAndRewrite(ReshapeOp op,
28ebb0b6SAart Bik                                PatternRewriter &rewriter) const override {
28ebb0b6SAart Bik    Location loc = op->getLoc();
28ebb0b6SAart Bik    auto encDst = getSparseTensorEncoding(op.getResult().getType());
28ebb0b6SAart Bik    auto encSrc = getSparseTensorEncoding(op.getSrc().getType());
28ebb0b6SAart Bik    // Since a pure dense expansion is very cheap (change of view), for
28ebb0b6SAart Bik    // a sparse2dense or dense2sparse, we can simply unfuse a sparse
28ebb0b6SAart Bik    // conversion from the reshape operation itself.
28ebb0b6SAart Bik    // All other cases are handled elsewhere.
28ebb0b6SAart Bik    if (encDst && encSrc) {
28ebb0b6SAart Bik      return failure();
0449b6a0SMehdi Amini    }
0449b6a0SMehdi Amini    if (encSrc) {
255c3f11Swren romano      auto rtp = getRankedTensorType(op.getSrc());
28ebb0b6SAart Bik      auto denseTp =
28ebb0b6SAart Bik          RankedTensorType::get(rtp.getShape(), rtp.getElementType());
28ebb0b6SAart Bik      auto convert = rewriter.create<ConvertOp>(loc, denseTp, op.getSrc());
5fcf907bSMatthias Springer      rewriter.modifyOpInPlace(op, [&]() { op->setOperand(0, convert); });
28ebb0b6SAart Bik      return success();
550288cbSPeiming Liu    }
550288cbSPeiming Liu    if (encDst) {
255c3f11Swren romano      auto rtp = getRankedTensorType(op.getResult());
28ebb0b6SAart Bik      auto denseTp =
28ebb0b6SAart Bik          RankedTensorType::get(rtp.getShape(), rtp.getElementType());
97069a86SGaurav Shukla      ReshapeOp reshape;
97069a86SGaurav Shukla      if constexpr (std::is_same<ReshapeOp, tensor::ExpandShapeOp>::value) {
97069a86SGaurav Shukla        reshape = rewriter.create<ReshapeOp>(
97069a86SGaurav Shukla            loc, denseTp, op.getSrc(), op.getReassociation(),
97069a86SGaurav Shukla            op.getOutputShape(), op.getStaticOutputShape());
97069a86SGaurav Shukla      } else {
97069a86SGaurav Shukla        reshape = rewriter.create<ReshapeOp>(loc, denseTp, op.getSrc(),
28ebb0b6SAart Bik                                             op.getReassociation());
97069a86SGaurav Shukla      }
28ebb0b6SAart Bik      Value convert = rewriter.create<ConvertOp>(loc, rtp, reshape);
28ebb0b6SAart Bik      rewriter.replaceOp(op, convert);
28ebb0b6SAart Bik      return success();
28ebb0b6SAart Bik    }
28ebb0b6SAart Bik    return failure();
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik};
28ebb0b6SAart Bik
71c97c73SPeiming Liu// A trivial wrapper to help generate different operations for dense/sparse
71c97c73SPeiming Liu// tensors.
dda3dc5eSPeiming Liustruct TensorLike {
dda3dc5eSPeiming Liu  TensorLike(OpBuilder &builder, Location loc, RankedTensorType rtt,
71c97c73SPeiming Liu             ValueRange sizes) {
dda3dc5eSPeiming Liu    SmallVector<Value> dynSzs;
dda3dc5eSPeiming Liu    getDynamicSizes(rtt, sizes, dynSzs);
dda3dc5eSPeiming Liu
dda3dc5eSPeiming Liu    val = builder.create<AllocTensorOp>(loc, rtt, dynSzs);
71c97c73SPeiming Liu    if (!isSparse()) {
71c97c73SPeiming Liu      Value c0 = constantZero(builder, loc, rtt.getElementType());
71c97c73SPeiming Liu      val = builder.create<linalg::FillOp>(loc, c0, val).getResult(0);
71c97c73SPeiming Liu    }
dda3dc5eSPeiming Liu  }
dda3dc5eSPeiming Liu
71c97c73SPeiming Liu  void insert(OpBuilder &builder, Location loc, Value v, ValueRange crds) {
71c97c73SPeiming Liu    val = builder.create<tensor::InsertOp>(loc, v, val, crds);
dda3dc5eSPeiming Liu  }
dda3dc5eSPeiming Liu
dda3dc5eSPeiming Liu  Value finalize(OpBuilder &builder, Location loc, RankedTensorType rtp) const {
71c97c73SPeiming Liu    if (isSparse())
dda3dc5eSPeiming Liu      return builder.create<LoadOp>(loc, val, true);
71c97c73SPeiming Liu    return val;
dda3dc5eSPeiming Liu  }
dda3dc5eSPeiming Liu
71c97c73SPeiming Liu  bool isSparse() const {
71c97c73SPeiming Liu    return getSparseTensorEncoding(val.getType()) != nullptr;
dda3dc5eSPeiming Liu  }
dda3dc5eSPeiming Liu
71c97c73SPeiming Liu  Value val;
dda3dc5eSPeiming Liu};
dda3dc5eSPeiming Liu
c780352dSPeiming Liustruct SparseTensorDimOpRewriter : public OpRewritePattern<tensor::DimOp> {
c780352dSPeiming Liu  using OpRewritePattern::OpRewritePattern;
c780352dSPeiming Liu  LogicalResult matchAndRewrite(tensor::DimOp op,
c780352dSPeiming Liu                                PatternRewriter &rewriter) const override {
c780352dSPeiming Liu    std::optional<int64_t> dim = op.getConstantIndex();
*129ade21SLongsheng Mou    auto stt = tryGetSparseTensorType(op.getSource());
*129ade21SLongsheng Mou    if (!dim || !stt || !stt->hasEncoding())
c780352dSPeiming Liu      return failure();
c780352dSPeiming Liu
*129ade21SLongsheng Mou    if (stt->isPermutation()) {
c780352dSPeiming Liu      rewriter.replaceOpWithNewOp<LvlOp>(op, op.getSource(),
*129ade21SLongsheng Mou                                         toLvl(stt->getEncoding(), *dim));
c780352dSPeiming Liu      return success();
c780352dSPeiming Liu    }
c780352dSPeiming Liu
c780352dSPeiming Liu    // Non-permutation dim2lvl/lvl2dim maps.
c780352dSPeiming Liu    // Compute as follows:
c780352dSPeiming Liu    // affine.apply #map (l0 - 1, l1 - 1, ...) + 1
c780352dSPeiming Liu    // Note that it is not the most efficient way (but a more general one) for
c780352dSPeiming Liu    // the lvl to dim translation, e.g., for BSR, the dimension size for can be
c780352dSPeiming Liu    // computed simply by lvl_size * block_size.
c780352dSPeiming Liu    Location loc = op.getLoc();
c780352dSPeiming Liu    SmallVector<Value> maxLvlCrds;
*129ade21SLongsheng Mou    for (Level l = 0; l < stt->getLvlRank(); l++) {
c780352dSPeiming Liu      Value lvlSz = rewriter.create<LvlOp>(loc, op.getSource(), l);
c780352dSPeiming Liu      Value maxLvlCrd = rewriter.create<arith::SubIOp>(
c780352dSPeiming Liu          loc, lvlSz, constantOne(rewriter, loc, rewriter.getIndexType()));
c780352dSPeiming Liu      maxLvlCrds.push_back(maxLvlCrd);
c780352dSPeiming Liu    }
c780352dSPeiming Liu
*129ade21SLongsheng Mou    AffineExpr lvl2DimExp = stt->getLvlToDim().getResult(*dim);
c780352dSPeiming Liu    Value maxDimCrd = rewriter.create<affine::AffineApplyOp>(
*129ade21SLongsheng Mou        op.getLoc(), AffineMap::get(stt->getLvlRank(), 0, lvl2DimExp),
c780352dSPeiming Liu        maxLvlCrds);
c780352dSPeiming Liu
c780352dSPeiming Liu    Value dimSz = rewriter.create<arith::AddIOp>(
c780352dSPeiming Liu        loc, maxDimCrd, constantOne(rewriter, loc, rewriter.getIndexType()));
c780352dSPeiming Liu    rewriter.replaceOp(op, dimSz);
c780352dSPeiming Liu    return success();
c780352dSPeiming Liu  }
c780352dSPeiming Liu};
c780352dSPeiming Liu
761c9dd9SPeiming Liustruct ConcatenateRewriter : public OpRewritePattern<ConcatenateOp> {
761c9dd9SPeiming Liu  using OpRewritePattern::OpRewritePattern;
761c9dd9SPeiming Liu  LogicalResult matchAndRewrite(ConcatenateOp op,
761c9dd9SPeiming Liu                                PatternRewriter &rewriter) const override {
761c9dd9SPeiming Liu    if (op.needsExtraSort())
761c9dd9SPeiming Liu      op.emitError("ConcatenateOp not staged");
761c9dd9SPeiming Liu
761c9dd9SPeiming Liu    const Location loc = op.getLoc();
761c9dd9SPeiming Liu    const auto dstTp = getSparseTensorType(op);
761c9dd9SPeiming Liu    const Dimension conDim = op.getDimension();
761c9dd9SPeiming Liu    SmallVector<Value> sizes;
761c9dd9SPeiming Liu    concatSizesFromInputs(rewriter, sizes, loc, dstTp, op.getInputs(), conDim);
761c9dd9SPeiming Liu
761c9dd9SPeiming Liu    // %t = concatenate %s1, %s2, %s3 {dim = 1}
761c9dd9SPeiming Liu    // ==>
761c9dd9SPeiming Liu    // if (isSparseDst)
761c9dd9SPeiming Liu    //   if (allDense)
761c9dd9SPeiming Liu    //     %tmp = bufferization.alloc_tensor dstTp
761c9dd9SPeiming Liu    //   else
761c9dd9SPeiming Liu    //     %tmp = bufferization.alloc_tensor : unordered COO
761c9dd9SPeiming Liu    // else
761c9dd9SPeiming Liu    //   %tmp = memref.alloc : dense tensor
761c9dd9SPeiming Liu    // foreach in %s1 : insert d0, d1, %tmp
761c9dd9SPeiming Liu    // foreach in %s2 : insert d0, d1 + size(s1), %tmp
761c9dd9SPeiming Liu    // foreach in %s3 : insert d0, d1 + size(s1) + size(s2), %tmp
761c9dd9SPeiming Liu
761c9dd9SPeiming Liu    TensorLike dstBuf(rewriter, loc, dstTp.getRankedTensorType(), sizes);
761c9dd9SPeiming Liu    Value offset = constantIndex(rewriter, loc, 0);
71c97c73SPeiming Liu    Value iterArg = dstBuf.val;
761c9dd9SPeiming Liu
761c9dd9SPeiming Liu    ForeachOp foreachOp;
761c9dd9SPeiming Liu    for (Value input : op.getInputs()) {
761c9dd9SPeiming Liu      // Builds a for op for each input tensor to append new values into the
761c9dd9SPeiming Liu      // output tensor.
761c9dd9SPeiming Liu      foreachOp = rewriter.create<ForeachOp>(
71c97c73SPeiming Liu          loc, input, iterArg,
761c9dd9SPeiming Liu          [&](OpBuilder &builder, Location loc, ValueRange dcvs, Value v,
761c9dd9SPeiming Liu              ValueRange reduc) {
ef100c22SPeiming Liu            SmallVector<Value> offDimCrd(dcvs);
ef100c22SPeiming Liu            offDimCrd[conDim] =
ef100c22SPeiming Liu                builder.create<arith::AddIOp>(loc, offDimCrd[conDim], offset);
ef100c22SPeiming Liu
71c97c73SPeiming Liu            // Enters foreach, updates the SSA chain.
71c97c73SPeiming Liu            dstBuf.val = reduc.front();
761c9dd9SPeiming Liu            if (!dstTp.isAllDense()) {
761c9dd9SPeiming Liu              Value cond = genIsNonzero(builder, loc, v);
761c9dd9SPeiming Liu              auto ifOp = builder.create<scf::IfOp>(loc, reduc.getTypes(), cond,
761c9dd9SPeiming Liu                                                    /*else*/ true);
761c9dd9SPeiming Liu              builder.setInsertionPointToStart(&ifOp.getElseRegion().front());
71c97c73SPeiming Liu              builder.create<scf::YieldOp>(loc, dstBuf.val);
761c9dd9SPeiming Liu
761c9dd9SPeiming Liu              builder.setInsertionPointToStart(&ifOp.getThenRegion().front());
ef100c22SPeiming Liu              dstBuf.insert(builder, loc, v, offDimCrd);
71c97c73SPeiming Liu              builder.create<scf::YieldOp>(loc, dstBuf.val);
761c9dd9SPeiming Liu
761c9dd9SPeiming Liu              // Exits the ifOp, update the sparse tensor SSA value.
761c9dd9SPeiming Liu              builder.setInsertionPointAfter(ifOp);
71c97c73SPeiming Liu              dstBuf.val = ifOp.getResult(0);
761c9dd9SPeiming Liu            } else {
ef100c22SPeiming Liu              dstBuf.insert(builder, loc, v, offDimCrd);
761c9dd9SPeiming Liu            }
71c97c73SPeiming Liu            builder.create<sparse_tensor::YieldOp>(loc, dstBuf.val);
761c9dd9SPeiming Liu          });
761c9dd9SPeiming Liu      // Accumulates the offset. Note that only static-shaped inputs are allowed
761c9dd9SPeiming Liu      // by concatenate op verifier, which saves us from computing the offset
761c9dd9SPeiming Liu      // dynamically.
22212ca7SAart Bik      const Size sz = getSparseTensorType(input).getDynamicDimSize(conDim);
22212ca7SAart Bik      assert(!ShapedType::isDynamic(sz));
22212ca7SAart Bik      offset = rewriter.create<arith::AddIOp>(loc, offset,
22212ca7SAart Bik                                              constantIndex(rewriter, loc, sz));
761c9dd9SPeiming Liu      iterArg = foreachOp.getResult(0);
71c97c73SPeiming Liu      dstBuf.val = iterArg;
761c9dd9SPeiming Liu    }
761c9dd9SPeiming Liu
71c97c73SPeiming Liu    dstBuf.val = iterArg;
761c9dd9SPeiming Liu    Value ret = dstBuf.finalize(rewriter, loc, dstTp.getRankedTensorType());
761c9dd9SPeiming Liu    rewriter.replaceOp(op, ret);
761c9dd9SPeiming Liu    return success();
761c9dd9SPeiming Liu  }
761c9dd9SPeiming Liu};
761c9dd9SPeiming Liu
dda3dc5eSPeiming Liustruct DirectConvertRewriter : public OpRewritePattern<ConvertOp> {
eb877006Sbixia1  using OpRewritePattern::OpRewritePattern;
eb877006Sbixia1  LogicalResult matchAndRewrite(ConvertOp op,
eb877006Sbixia1                                PatternRewriter &rewriter) const override {
761c9dd9SPeiming Liu    if (op.needsExtraSort())
f248d0b2SPeiming Liu      return op.emitError("ConvertOp not staged.");
dda3dc5eSPeiming Liu
dda3dc5eSPeiming Liu    // TODO: Maybe we want a different operation for this too.
eb877006Sbixia1    auto encDst = getSparseTensorEncoding(op.getType());
eb877006Sbixia1    auto encSrc = getSparseTensorEncoding(op.getSource().getType());
33267f40SPeiming Liu    if (encDst && encSrc && !encSrc.isSlice() &&
85dbb3fcSPeiming Liu        encSrc.withoutBitWidths() == encDst.withoutBitWidths()) {
85dbb3fcSPeiming Liu      // Trivial tensor conversion and simple element type conversion is handled
85dbb3fcSPeiming Liu      // in codegen.
eb877006Sbixia1      return failure();
eb877006Sbixia1    }
eb877006Sbixia1
eb877006Sbixia1    Location loc = op.getLoc();
eb877006Sbixia1    Value src = op.getSource();
dda3dc5eSPeiming Liu
dda3dc5eSPeiming Liu    SparseTensorType srcStt = getSparseTensorType(op.getSource());
dda3dc5eSPeiming Liu    SparseTensorType dstStt = getSparseTensorType(op.getDest());
eb877006Sbixia1
e6cbb914SAart Bik    bool fromSparseConst = false;
dda3dc5eSPeiming Liu    if (auto constOp = op.getSource().getDefiningOp<arith::ConstantOp>())
dda3dc5eSPeiming Liu      if (dyn_cast<SparseElementsAttr>(constOp.getValue()))
e6cbb914SAart Bik        fromSparseConst = true;
e6cbb914SAart Bik
76647fceSwren romano    const AffineMapAttr foreachOrder =
dda3dc5eSPeiming Liu        (!dstStt.isIdentity() && fromSparseConst)
dda3dc5eSPeiming Liu            ? AffineMapAttr::get(dstStt.getExpandedDimToLvl())
76647fceSwren romano            : nullptr;
41089f86SPeiming Liu
dda3dc5eSPeiming Liu    bool skipZeroCheck = srcStt.hasEncoding() || fromSparseConst;
eb877006Sbixia1
0e1708ffSAart Bik    SmallVector<Value> sizes;
dda3dc5eSPeiming Liu    sizesFromSrc(rewriter, sizes, loc, src);
dda3dc5eSPeiming Liu    ValueRange vs;
dda3dc5eSPeiming Liu    TensorLike dstBuf(rewriter, loc, dstStt.getRankedTensorType(), sizes);
a61a9a70SAart Bik
dda3dc5eSPeiming Liu    auto foreachOp = rewriter.create<ForeachOp>(
71c97c73SPeiming Liu        loc, src, dstBuf.val, foreachOrder,
dda3dc5eSPeiming Liu        [&](OpBuilder &builder, Location loc, ValueRange dcvs, Value v,
dda3dc5eSPeiming Liu            ValueRange reduc) {
dda3dc5eSPeiming Liu          // Enters the loop, update the SSA value for insertion chain.
71c97c73SPeiming Liu          dstBuf.val = reduc.front();
dda3dc5eSPeiming Liu          if (!skipZeroCheck) {
dda3dc5eSPeiming Liu            Value cond = genIsNonzero(builder, loc, v);
dda3dc5eSPeiming Liu            auto ifOp = builder.create<scf::IfOp>(loc, reduc.getTypes(), cond,
dda3dc5eSPeiming Liu                                                  /*else*/ true);
dda3dc5eSPeiming Liu            builder.setInsertionPointToStart(&ifOp.getElseRegion().front());
71c97c73SPeiming Liu            builder.create<scf::YieldOp>(loc, dstBuf.val);
dda3dc5eSPeiming Liu
dda3dc5eSPeiming Liu            builder.setInsertionPointToStart(&ifOp.getThenRegion().front());
ef100c22SPeiming Liu            dstBuf.insert(builder, loc, v, dcvs);
71c97c73SPeiming Liu            builder.create<scf::YieldOp>(loc, dstBuf.val);
dda3dc5eSPeiming Liu
dda3dc5eSPeiming Liu            // Exits the ifOp, update the sparse tensor SSA value.
dda3dc5eSPeiming Liu            builder.setInsertionPointAfter(ifOp);
71c97c73SPeiming Liu            dstBuf.val = ifOp.getResult(0);
dda3dc5eSPeiming Liu          } else {
ef100c22SPeiming Liu            dstBuf.insert(builder, loc, v, dcvs);
dda3dc5eSPeiming Liu          }
71c97c73SPeiming Liu          builder.create<sparse_tensor::YieldOp>(loc, dstBuf.val);
eb877006Sbixia1        });
eb877006Sbixia1
dda3dc5eSPeiming Liu    rewriter.setInsertionPointAfter(foreachOp);
eb877006Sbixia1
dda3dc5eSPeiming Liu    // Exits the for loop, links the SSA chain.
71c97c73SPeiming Liu    dstBuf.val = foreachOp.getResult(0);
eb877006Sbixia1
dda3dc5eSPeiming Liu    Value ret = dstBuf.finalize(rewriter, loc, dstStt.getRankedTensorType());
dda3dc5eSPeiming Liu    rewriter.replaceOp(op, ret);
eb877006Sbixia1    return success();
eb877006Sbixia1  }
eb877006Sbixia1};
eb877006Sbixia1
3426d330SPeiming Liustruct CrdTranslateRewriter : public OpRewritePattern<CrdTranslateOp> {
3426d330SPeiming Liu  using OpRewritePattern::OpRewritePattern;
3426d330SPeiming Liu  LogicalResult matchAndRewrite(CrdTranslateOp op,
3426d330SPeiming Liu                                PatternRewriter &rewriter) const override {
3426d330SPeiming Liu    AffineMap map = op.getDirection() == CrdTransDirectionKind::dim2lvl
3426d330SPeiming Liu                        ? op.getEncoder().getDimToLvl()
3426d330SPeiming Liu                        : op.getEncoder().getLvlToDim();
3426d330SPeiming Liu
3426d330SPeiming Liu    SmallVector<Value> outCrds;
3426d330SPeiming Liu    for (AffineExpr result : map.getResults()) {
3426d330SPeiming Liu      // TODO: we should probably expand the affine map to IR using our own
3426d330SPeiming Liu      // rules, since affine.apply assume signed value, while the cooridinates
3426d330SPeiming Liu      // we provided must always be signless.
3426d330SPeiming Liu      Value trans = rewriter.create<affine::AffineApplyOp>(
3426d330SPeiming Liu          op.getLoc(), AffineMap::get(map.getNumDims(), 0, result),
3426d330SPeiming Liu          op.getInCrds());
3426d330SPeiming Liu      outCrds.push_back(trans);
3426d330SPeiming Liu    }
3426d330SPeiming Liu    rewriter.replaceOp(op, outCrds);
3426d330SPeiming Liu    return success();
3426d330SPeiming Liu  }
3426d330SPeiming Liu};
3426d330SPeiming Liu
550288cbSPeiming Liu/// Sparse rewriting rule for the foreach operator.
550288cbSPeiming Liustruct ForeachRewriter : public OpRewritePattern<ForeachOp> {
550288cbSPeiming Liupublic:
550288cbSPeiming Liu  using OpRewritePattern::OpRewritePattern;
550288cbSPeiming Liu
550288cbSPeiming Liu  LogicalResult matchAndRewrite(ForeachOp op,
550288cbSPeiming Liu                                PatternRewriter &rewriter) const override {
550288cbSPeiming Liu
550288cbSPeiming Liu    auto loc = op.getLoc();
550288cbSPeiming Liu    Value input = op.getTensor();
7175f9ddSPeiming Liu    SmallVector<Value> reduc = op.getInitArgs();
f708a549Swren romano    const auto stt = getSparseTensorType(input);
84cd51bbSwren romano    const Level lvlRank = stt.getLvlRank();
550288cbSPeiming Liu
7175f9ddSPeiming Liu    // Special-case: for each over a sparse constant uses its own rewriting
7175f9ddSPeiming Liu    // rule.
7175f9ddSPeiming Liu    if (auto constOp = input.getDefiningOp<arith::ConstantOp>()) {
5550c821STres Popp      if (auto attr = dyn_cast<SparseElementsAttr>(constOp.getValue())) {
8d615a23SPeiming Liu        return genForeachOnSparseConstant(op, rewriter, attr);
7175f9ddSPeiming Liu      }
7175f9ddSPeiming Liu    }
7175f9ddSPeiming Liu
7175f9ddSPeiming Liu    // Otherwise, use loop emitter to generate loops.
f708a549Swren romano    const auto enc = stt.getEncoding();
4fa00ce1SPeiming Liu
550288cbSPeiming Liu    // 1. Generates loop for the sparse input.
781eabebSPeiming Liu    LoopEmitter loopEmitter(
91e7b9e5SPeiming Liu        ValueRange{input},
91e7b9e5SPeiming Liu        StringAttr::get(getContext(), ForeachOp::getOperationName()));
550288cbSPeiming Liu    loopEmitter.initializeLoopEmit(rewriter, loc);
b8cf7af9Swren romano    for (Level l = 0; l < lvlRank; l++) {
b0f8057eSPeiming Liu      // TODO: provide utility function for loop sequences that only contains
b0f8057eSPeiming Liu      // one for loop?
36c95ee7SPeiming Liu      const SmallVector<TensorLevel, 1> tidLvls{
36c95ee7SPeiming Liu          loopEmitter.makeTensorLevel(0, l)};
36c95ee7SPeiming Liu      loopEmitter.enterNewLoopSeq(rewriter, loc, tidLvls);
4fa00ce1SPeiming Liu      // Note that reduc will be taken care of by loop emitter and get updated
4fa00ce1SPeiming Liu      // in place.
c4420257SPeiming Liu      loopEmitter.enterCoIterationOverTensorsAtLvls(rewriter, loc, tidLvls, 1,
fd68d361SPeiming Liu                                                    reduc);
b0f8057eSPeiming Liu    }
550288cbSPeiming Liu
372d88b0SPeiming Liu    SmallVector<Value> lcvs = loopEmitter.getLoopIVs();
9e8d9316SPeiming Liu    if (op.getOrder()) {
53ffafb2SPeiming Liu      // TODO: Support it so that we can do direct conversion from CSR->BSR.
53ffafb2SPeiming Liu      llvm_unreachable(
53ffafb2SPeiming Liu          "Level order not yet implemented on non-constant input tensors.");
9e8d9316SPeiming Liu    }
53ffafb2SPeiming Liu
b0f8057eSPeiming Liu    Value vals = loopEmitter.getValBuffer()[0];
52b69aa3SPeiming Liu    SmallVector<Value> pos = loopEmitter.getValPosits(0);
84cd51bbSwren romano    // Loads the value from sparse tensor using position-index;
84cd51bbSwren romano    // loads the value from dense tensor using coords.
b8cf7af9Swren romano    Value val = enc ? rewriter.create<memref::LoadOp>(loc, vals, pos)
84cd51bbSwren romano                    : rewriter.create<memref::LoadOp>(loc, vals, lcvs);
35b3a0ceSPeiming Liu
550288cbSPeiming Liu    // 2. Inline the block in the foreach operator.
550288cbSPeiming Liu    Block *srcBlock = op.getBody();
b0f8057eSPeiming Liu
550288cbSPeiming Liu    // Remap coordinates.
6456e0bbSPeiming Liu    SmallVector<Value> args =
6456e0bbSPeiming Liu        enc.translateCrds(rewriter, loc, lcvs, CrdTransDirectionKind::lvl2dim);
6456e0bbSPeiming Liu
550288cbSPeiming Liu    // Remap value.
550288cbSPeiming Liu    args.push_back(val);
4fa00ce1SPeiming Liu    // Remap reduction variables.
4fa00ce1SPeiming Liu    args.append(reduc);
4fa00ce1SPeiming Liu
4fa00ce1SPeiming Liu    // Remove sparse_tensor.yield.
4fa00ce1SPeiming Liu    SmallVector<Value> reducValue = srcBlock->getTerminator()->getOperands();
4fa00ce1SPeiming Liu    rewriter.eraseOp(srcBlock->getTerminator());
550288cbSPeiming Liu
298412b5SPeiming Liu    Operation &last = rewriter.getBlock()->back();
298412b5SPeiming Liu    if (llvm::isa<scf::YieldOp>(last)) {
298412b5SPeiming Liu      // Because `scf.for` inserts an implicit yield op when there is no
298412b5SPeiming Liu      // reduction variable upon creation, we reset the insertion point such
298412b5SPeiming Liu      // that the block is inlined before *before* the yield op.
298412b5SPeiming Liu      rewriter.setInsertionPoint(&last);
4fa00ce1SPeiming Liu    }
4fa00ce1SPeiming Liu
298412b5SPeiming Liu    rewriter.inlineBlockBefore(srcBlock, rewriter.getBlock(),
298412b5SPeiming Liu                               rewriter.getInsertionPoint(), args);
298412b5SPeiming Liu    rewriter.setInsertionPointToEnd(rewriter.getBlock());
e9fa1fdeSPeiming Liu    for (Level l = 0; l < lvlRank; l++) {
4fa00ce1SPeiming Liu      // Link the reduction chain. Note that loop emitter update the reducValue
4fa00ce1SPeiming Liu      // in place.
4fa00ce1SPeiming Liu      loopEmitter.exitCurrentLoop(rewriter, loc, reducValue);
5fd9d801SPeiming Liu      loopEmitter.exitCurrentLoopSeq(rewriter, loc);
4fa00ce1SPeiming Liu    }
4fa00ce1SPeiming Liu
4fa00ce1SPeiming Liu    // Replace the foreach operator with the value returned by the outtermost
4fa00ce1SPeiming Liu    // for loop.
4fa00ce1SPeiming Liu    rewriter.replaceOp(op, reducValue);
550288cbSPeiming Liu    return success();
550288cbSPeiming Liu  }
550288cbSPeiming Liu};
550288cbSPeiming Liu
67f61b08Sbixia1/// Sparse rewriting rule for the new operator.
67f61b08Sbixia1struct NewRewriter : public OpRewritePattern<NewOp> {
67f61b08Sbixia1  using OpRewritePattern::OpRewritePattern;
67f61b08Sbixia1  LogicalResult matchAndRewrite(NewOp op,
67f61b08Sbixia1                                PatternRewriter &rewriter) const override {
67f61b08Sbixia1    Location loc = op.getLoc();
e8fc282fSAart Bik    auto stt = getSparseTensorType(op.getResult());
5248a987SPeiming Liu    if (!stt.hasEncoding() || stt.getAoSCOOStart() == 0)
67f61b08Sbixia1      return failure();
67f61b08Sbixia1
67f61b08Sbixia1    // Implement the NewOp as follows:
2c81d432Sbixia1    //   %orderedCoo = sparse_tensor.new %filename
84cd51bbSwren romano    //   %t = sparse_tensor.convert %orderedCoo
e8fc282fSAart Bik    // with enveloping reinterpreted_map ops for non-permutations.
e8fc282fSAart Bik    RankedTensorType dstTp = stt.getRankedTensorType();
45288085SAart Bik    RankedTensorType cooTp = stt.getCOOType(/*ordered=*/true);
2c81d432Sbixia1    Value cooTensor = rewriter.create<NewOp>(loc, cooTp, op.getSource());
e8fc282fSAart Bik    Value convert = cooTensor;
5b729503SAart Bik    auto enc = stt.getEncoding();
e8fc282fSAart Bik    if (!stt.isPermutation()) { // demap coo, demap dstTp
e8fc282fSAart Bik      auto coo = getSparseTensorType(cooTensor).getEncoding().withoutDimToLvl();
e8fc282fSAart Bik      convert = rewriter.create<ReinterpretMapOp>(loc, coo, convert);
e8fc282fSAart Bik      dstTp = getSparseTensorType(convert).withEncoding(enc.withoutDimToLvl());
e8fc282fSAart Bik    }
e8fc282fSAart Bik    convert = rewriter.create<ConvertOp>(loc, dstTp, convert);
e8fc282fSAart Bik    if (!stt.isPermutation()) // remap to original enc
e8fc282fSAart Bik      convert = rewriter.create<ReinterpretMapOp>(loc, enc, convert);
e8fc282fSAart Bik    rewriter.replaceOp(op, convert);
3bd82f30SAart Bik
e8fc282fSAart Bik    // Release the temporary ordered COO tensor.
2c81d432Sbixia1    rewriter.setInsertionPointAfterValue(convert);
2c81d432Sbixia1    rewriter.create<DeallocTensorOp>(loc, cooTensor);
67f61b08Sbixia1
67f61b08Sbixia1    return success();
67f61b08Sbixia1  }
67f61b08Sbixia1};
67f61b08Sbixia1
e8fc282fSAart Bik/// Sparse rewriting rule for the out operator.
e445349dSbixia1struct OutRewriter : public OpRewritePattern<OutOp> {
e445349dSbixia1  using OpRewritePattern::OpRewritePattern;
e445349dSbixia1  LogicalResult matchAndRewrite(OutOp op,
e445349dSbixia1                                PatternRewriter &rewriter) const override {
e445349dSbixia1    Location loc = op.getLoc();
e445349dSbixia1    // Calculate NNZ.
e445349dSbixia1    Value src = op.getTensor();
e445349dSbixia1    Value nnz = rewriter.create<NumberOfEntriesOp>(loc, src);
e445349dSbixia1
84cd51bbSwren romano    // Allocate a temporary buffer for storing dimension-sizes/coordinates.
f708a549Swren romano    const auto srcTp = getSparseTensorType(src);
f708a549Swren romano    const Dimension dimRank = srcTp.getDimRank();
e445349dSbixia1    Type indexTp = rewriter.getIndexType();
f708a549Swren romano    Value dimSizes = genAlloca(rewriter, loc, dimRank, indexTp);
e445349dSbixia1
e445349dSbixia1    // Generate code to calculate dimension size values and store the values to
e445349dSbixia1    // the buffer.
0e1708ffSAart Bik    SmallVector<Value> dims;
e445349dSbixia1    sizesForTensor(rewriter, dims, loc, srcTp, src);
f708a549Swren romano    for (Dimension d = 0; d < dimRank; d++) {
f708a549Swren romano      rewriter.create<memref::StoreOp>(loc, dims[d], dimSizes,
f708a549Swren romano                                       constantIndex(rewriter, loc, d));
e445349dSbixia1    }
e445349dSbixia1
e445349dSbixia1    // Create a sparse tensor writer and output meta data.
e445349dSbixia1    Type opaqueTp = getOpaquePointerType(rewriter);
e445349dSbixia1    Value writer =
e445349dSbixia1        createFuncCall(rewriter, loc, "createSparseTensorWriter", {opaqueTp},
e445349dSbixia1                       {op.getDest()}, EmitCInterface::Off)
e445349dSbixia1            .getResult(0);
f708a549Swren romano    Value rankValue = constantIndex(rewriter, loc, dimRank);
e445349dSbixia1    createFuncCall(rewriter, loc, "outSparseTensorWriterMetaData", {},
e445349dSbixia1                   {writer, rankValue, nnz, dimSizes}, EmitCInterface::On);
e445349dSbixia1
84cd51bbSwren romano    Value dimCoords = dimSizes; // Reuse the dimSizes buffer for dimCoords.
e445349dSbixia1    Type eltTp = srcTp.getElementType();
2af2e4dbSwren romano    SmallString<29> outNextFuncName{"outSparseTensorWriterNext",
e445349dSbixia1                                    primaryTypeFunctionSuffix(eltTp)};
e445349dSbixia1    Value value = genAllocaScalar(rewriter, loc, eltTp);
e445349dSbixia1    ModuleOp module = op->getParentOfType<ModuleOp>();
e8fc282fSAart Bik
e445349dSbixia1    // For each element in the source tensor, output the element.
e445349dSbixia1    rewriter.create<ForeachOp>(
1a36588eSKazu Hirata        loc, src, std::nullopt,
84cd51bbSwren romano        [&](OpBuilder &builder, Location loc, ValueRange dcvs, Value v,
4fa00ce1SPeiming Liu            ValueRange reduc) {
f708a549Swren romano          for (Dimension d = 0; d < dimRank; d++) {
84cd51bbSwren romano            rewriter.create<memref::StoreOp>(loc, dcvs[d], dimCoords,
f708a549Swren romano                                             constantIndex(builder, loc, d));
e445349dSbixia1          }
4fa00ce1SPeiming Liu          rewriter.create<memref::StoreOp>(loc, v, value);
84cd51bbSwren romano          SmallVector<Value> operands{writer, rankValue, dimCoords, value};
e445349dSbixia1          FlatSymbolRefAttr fn = getFunc(module, outNextFuncName, {}, operands,
e445349dSbixia1                                         EmitCInterface::On);
e445349dSbixia1          builder.create<func::CallOp>(loc, TypeRange(), fn, operands);
e445349dSbixia1          builder.create<sparse_tensor::YieldOp>(loc);
e445349dSbixia1        });
e445349dSbixia1
e445349dSbixia1    // Release the writer.
e445349dSbixia1    createFuncCall(rewriter, loc, "delSparseTensorWriter", {}, {writer},
e445349dSbixia1                   EmitCInterface::Off);
e445349dSbixia1
e445349dSbixia1    rewriter.eraseOp(op);
e445349dSbixia1    return success();
e445349dSbixia1  }
e445349dSbixia1};
e445349dSbixia1
28ebb0b6SAart Bik} // namespace
28ebb0b6SAart Bik
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik// Methods that add patterns described in this file to a pattern list.
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
f81f0cb7Sbixia1
f81f0cb7Sbixia1void mlir::populatePreSparsificationRewriting(RewritePatternSet &patterns) {
3aeb28b9SPeiming Liu  patterns.add<FuseExtractSliceWithConcat, FoldConvertIntoProducer,
3aeb28b9SPeiming Liu               FoldInvariantYield, FuseSparseMultiplyOverAdd, FuseTensorCast,
3aeb28b9SPeiming Liu               GenSemiRingReduction, GenSemiRingSelect, PrintRewriter>(
3aeb28b9SPeiming Liu      patterns.getContext());
f81f0cb7Sbixia1}
f81f0cb7Sbixia1
f82bee13SPeiming Liuvoid mlir::populateLowerSparseOpsToForeachPatterns(RewritePatternSet &patterns,
f81f0cb7Sbixia1                                                   bool enableRT,
eb877006Sbixia1                                                   bool enableConvert) {
ef100c22SPeiming Liu  patterns.add<ConcatenateRewriter, ReshapeRewriter<tensor::ExpandShapeOp>,
bc878f70SPeiming Liu               ReshapeRewriter<tensor::CollapseShapeOp>,
bc878f70SPeiming Liu               Sparse2SparseReshapeRewriter<tensor::ExpandShapeOp>,
bc878f70SPeiming Liu               Sparse2SparseReshapeRewriter<tensor::CollapseShapeOp>,
7d608ee2SPeiming Liu               SparseTensorDimOpRewriter, TensorReshapeRewriter, OutRewriter>(
c780352dSPeiming Liu      patterns.getContext());
f82bee13SPeiming Liu
eb877006Sbixia1  if (enableConvert)
dda3dc5eSPeiming Liu    patterns.add<DirectConvertRewriter>(patterns.getContext());
f248d0b2SPeiming Liu  if (!enableRT)
7d608ee2SPeiming Liu    patterns.add<NewRewriter>(patterns.getContext());
28ebb0b6SAart Bik}
f82bee13SPeiming Liu
f82bee13SPeiming Liuvoid mlir::populateLowerForeachToSCFPatterns(RewritePatternSet &patterns) {
3426d330SPeiming Liu  // Run CrdTranslateRewriter later in the pipeline so that operation can be
3426d330SPeiming Liu  // folded before lowering to affine.apply
3426d330SPeiming Liu  patterns.add<CrdTranslateRewriter, ForeachRewriter>(patterns.getContext());
f82bee13SPeiming Liu}