SparseTensor/Transforms/SparseGPUCodegen.cpp

ee42e236SAart Bik//===- SparseGPUCodegen.cpp - Generates GPU code --------------------------===//
19466ebcSAart Bik//
19466ebcSAart Bik// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
19466ebcSAart Bik// See https://llvm.org/LICENSE.txt for license information.
19466ebcSAart Bik// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
19466ebcSAart Bik//
19466ebcSAart Bik//===----------------------------------------------------------------------===//
19466ebcSAart Bik//
c43e6274STim Harvey// This is a prototype GPU codegenerator for the sparsifier.
19466ebcSAart Bik// The objective is to eventually use the right combination of
19466ebcSAart Bik// direct code generation and libary calls into vendor-specific
19466ebcSAart Bik// highly optimized sparse libraries (e.g. cuSparse for CUDA).
19466ebcSAart Bik//
19466ebcSAart Bik//===----------------------------------------------------------------------===//
19466ebcSAart Bik
365777ecSAart Bik#include "Utils/CodegenUtils.h"
365777ecSAart Bik#include "Utils/LoopEmitter.h"
19466ebcSAart Bik
19466ebcSAart Bik#include "mlir/Dialect/Bufferization/IR/Bufferization.h"
19466ebcSAart Bik#include "mlir/Dialect/GPU/IR/GPUDialect.h"
ee42e236SAart Bik#include "mlir/Dialect/Linalg/IR/Linalg.h"
ee42e236SAart Bik#include "mlir/Dialect/Linalg/Utils/Utils.h"
19466ebcSAart Bik#include "mlir/Dialect/MemRef/IR/MemRef.h"
19466ebcSAart Bik#include "mlir/Dialect/SCF/IR/SCF.h"
19466ebcSAart Bik#include "mlir/Dialect/SparseTensor/IR/SparseTensor.h"
ee42e236SAart Bik#include "mlir/Dialect/SparseTensor/IR/SparseTensorType.h"
19466ebcSAart Bik#include "mlir/Dialect/SparseTensor/Transforms/Passes.h"
19466ebcSAart Bik#include "mlir/IR/IRMapping.h"
19466ebcSAart Bik#include "mlir/IR/Matchers.h"
19466ebcSAart Bik
19466ebcSAart Bikusing namespace mlir;
19466ebcSAart Bikusing namespace mlir::sparse_tensor;
19466ebcSAart Bik
19466ebcSAart Biknamespace {
19466ebcSAart Bik
3231a365SAart Bik// Sparse formats supported by cuSparse.
3231a365SAart Bikenum class CuSparseFormat {
3231a365SAart Bik  kNone,
3231a365SAart Bik  kCOO,
3231a365SAart Bik  kCSR,
3231a365SAart Bik  kCSC,
3d89c088SAart Bik  kBSR,
3231a365SAart Bik};
3231a365SAart Bik
19466ebcSAart Bik//===----------------------------------------------------------------------===//
19466ebcSAart Bik// Helper methods.
19466ebcSAart Bik//===----------------------------------------------------------------------===//
19466ebcSAart Bik
19466ebcSAart Bik/// Marks the given top module as a GPU container module.
19466ebcSAart Bikstatic void markAsGPUContainer(ModuleOp topModule) {
19466ebcSAart Bik  topModule->setAttr(gpu::GPUDialect::getContainerModuleAttrName(),
19466ebcSAart Bik                     UnitAttr::get(topModule->getContext()));
19466ebcSAart Bik}
19466ebcSAart Bik
4889214aSAart Bik/// Constructs a new GPU module (for GPU kernels) inside the given top module,
4889214aSAart Bik/// or returns an existing GPU module if one was built previously.
4889214aSAart Bikstatic gpu::GPUModuleOp genGPUModule(OpBuilder &builder, ModuleOp topModule) {
4889214aSAart Bik  for (auto op : topModule.getBodyRegion().getOps<gpu::GPUModuleOp>())
4889214aSAart Bik    return op; // existing
19466ebcSAart Bik  markAsGPUContainer(topModule);
49df12c0SMatthias Springer  builder.setInsertionPointToStart(topModule.getBody());
4889214aSAart Bik  return builder.create<gpu::GPUModuleOp>(topModule->getLoc(),
4889214aSAart Bik                                          "sparse_kernels");
19466ebcSAart Bik}
19466ebcSAart Bik
19466ebcSAart Bik/// Constructs a new GPU kernel in the given GPU module.
19466ebcSAart Bikstatic gpu::GPUFuncOp genGPUFunc(OpBuilder &builder, gpu::GPUModuleOp gpuModule,
4889214aSAart Bik                                 SmallVectorImpl<Value> &args) {
4889214aSAart Bik  // Get a unique kernel name. Not very creative,
4889214aSAart Bik  // but we simply try kernel0, kernel1, etc.
4889214aSAart Bik  unsigned kernelNumber = 0;
4889214aSAart Bik  SmallString<16> kernelName;
4889214aSAart Bik  do {
4889214aSAart Bik    kernelName.clear();
4889214aSAart Bik    ("kernel" + Twine(kernelNumber++)).toStringRef(kernelName);
4889214aSAart Bik  } while (gpuModule.lookupSymbol(kernelName));
4889214aSAart Bik  // Then we insert a new kernel with given arguments into the module.
49df12c0SMatthias Springer  builder.setInsertionPointToStart(gpuModule.getBody());
19466ebcSAart Bik  SmallVector<Type> argsTp;
56c385cdSMehdi Amini  for (auto arg : args)
56c385cdSMehdi Amini    argsTp.push_back(arg.getType());
19466ebcSAart Bik  FunctionType type = FunctionType::get(gpuModule->getContext(), argsTp, {});
19466ebcSAart Bik  auto gpuFunc =
4889214aSAart Bik      builder.create<gpu::GPUFuncOp>(gpuModule->getLoc(), kernelName, type);
19466ebcSAart Bik  gpuFunc->setAttr(gpu::GPUDialect::getKernelFuncAttrName(),
19466ebcSAart Bik                   builder.getUnitAttr());
19466ebcSAart Bik  return gpuFunc;
19466ebcSAart Bik}
19466ebcSAart Bik
19466ebcSAart Bik/// Constructs code to launch GPU kernel.
86888e42SAart Bikstatic Value genLaunchGPUFunc(OpBuilder &builder, gpu::GPUFuncOp gpuFunc,
19466ebcSAart Bik                              SmallVectorImpl<Value> &args,
86888e42SAart Bik                              SmallVectorImpl<Value> &tokens,
19466ebcSAart Bik                              unsigned numThreads) {
19466ebcSAart Bik  Location loc = gpuFunc->getLoc();
19466ebcSAart Bik  Value none = TypedValue<::mlir::IntegerType>{};
19466ebcSAart Bik  Value one = constantIndex(builder, loc, 1);
19466ebcSAart Bik  Value numT = constantIndex(builder, loc, numThreads);
19466ebcSAart Bik  gpu::KernelDim3 gridSize = {one, one, one};
19466ebcSAart Bik  gpu::KernelDim3 blckSize = {numT, one, one};
86888e42SAart Bik  return builder
86888e42SAart Bik      .create<gpu::LaunchFuncOp>(loc, gpuFunc, gridSize, blckSize,
86888e42SAart Bik                                 /*dynSharedMemSz*/ none, args,
86888e42SAart Bik                                 builder.getType<gpu::AsyncTokenType>(), tokens)
86888e42SAart Bik      .getAsyncToken();
19466ebcSAart Bik}
19466ebcSAart Bik
19466ebcSAart Bik/// Maps the provided ranked host buffer into the device address space.
19466ebcSAart Bik/// Writes from the host are guaranteed to be visible to device kernels
19466ebcSAart Bik/// that are launched afterwards. Writes from the device are guaranteed
19466ebcSAart Bik/// to be visible on the host after synchronizing with the device kernel
86888e42SAart Bik/// completion. Needs to cast the buffer to a unranked buffer.
19466ebcSAart Bikstatic Value genHostRegisterMemref(OpBuilder &builder, Location loc,
19466ebcSAart Bik                                   Value mem) {
5550c821STres Popp  MemRefType memTp = cast<MemRefType>(mem.getType());
19466ebcSAart Bik  UnrankedMemRefType resTp =
19466ebcSAart Bik      UnrankedMemRefType::get(memTp.getElementType(), /*memorySpace=*/0);
19466ebcSAart Bik  Value cast = builder.create<memref::CastOp>(loc, resTp, mem);
19466ebcSAart Bik  builder.create<gpu::HostRegisterOp>(loc, cast);
86888e42SAart Bik  return cast;
86888e42SAart Bik}
86888e42SAart Bik
86888e42SAart Bik/// Unmaps the provided buffer, expecting the casted buffer.
86888e42SAart Bikstatic void genHostUnregisterMemref(OpBuilder &builder, Location loc,
86888e42SAart Bik                                    Value cast) {
86888e42SAart Bik  builder.create<gpu::HostUnregisterOp>(loc, cast);
86888e42SAart Bik}
86888e42SAart Bik
86888e42SAart Bik/// Generates first wait in an asynchronous chain.
86888e42SAart Bikstatic Value genFirstWait(OpBuilder &builder, Location loc) {
86888e42SAart Bik  Type tokenType = builder.getType<gpu::AsyncTokenType>();
86888e42SAart Bik  return builder.create<gpu::WaitOp>(loc, tokenType, ValueRange())
86888e42SAart Bik      .getAsyncToken();
86888e42SAart Bik}
86888e42SAart Bik
86888e42SAart Bik/// Generates last, blocking wait in an asynchronous chain.
86888e42SAart Bikstatic void genBlockingWait(OpBuilder &builder, Location loc,
86888e42SAart Bik                            ValueRange operands) {
86888e42SAart Bik  builder.create<gpu::WaitOp>(loc, Type(), operands);
86888e42SAart Bik}
86888e42SAart Bik
86888e42SAart Bik/// Allocates memory on the device.
86888e42SAart Bik/// TODO: A `host_shared` attribute could be used to indicate that
86888e42SAart Bik///       the buffer is visible by both host and device, but lowering
86888e42SAart Bik///       that feature does not seem to be fully supported yet.
86888e42SAart Bikstatic gpu::AllocOp genAllocMemRef(OpBuilder &builder, Location loc, Value mem,
86888e42SAart Bik                                   Value token) {
5550c821STres Popp  auto tp = cast<ShapedType>(mem.getType());
86888e42SAart Bik  auto elemTp = tp.getElementType();
86888e42SAart Bik  auto shape = tp.getShape();
86888e42SAart Bik  auto memTp = MemRefType::get(shape, elemTp);
86888e42SAart Bik  SmallVector<Value> dynamicSizes;
86888e42SAart Bik  for (unsigned r = 0, rank = tp.getRank(); r < rank; r++) {
86888e42SAart Bik    if (shape[r] == ShapedType::kDynamic) {
ee42e236SAart Bik      Value dimOp = linalg::createOrFoldDimOp(builder, loc, mem, r);
86888e42SAart Bik      dynamicSizes.push_back(dimOp);
86888e42SAart Bik    }
86888e42SAart Bik  }
86888e42SAart Bik  return builder.create<gpu::AllocOp>(loc, TypeRange({memTp, token.getType()}),
86888e42SAart Bik                                      token, dynamicSizes, ValueRange());
86888e42SAart Bik}
86888e42SAart Bik
76a80a08SAart Bik// Allocates a typed buffer on the host with given size.
76a80a08SAart Bikstatic Value genHostBuffer(OpBuilder &builder, Location loc, Type type,
76a80a08SAart Bik                           Value size) {
76a80a08SAart Bik  const auto memTp = MemRefType::get({ShapedType::kDynamic}, type);
76a80a08SAart Bik  return builder.create<memref::AllocOp>(loc, memTp, size).getResult();
76a80a08SAart Bik}
76a80a08SAart Bik
76a80a08SAart Bik// Allocates a typed buffer on the device with given size.
76a80a08SAart Bikstatic gpu::AllocOp genAllocBuffer(OpBuilder &builder, Location loc, Type type,
76a80a08SAart Bik                                   Value size, Value token) {
76a80a08SAart Bik  const auto memTp = MemRefType::get({ShapedType::kDynamic}, type);
76a80a08SAart Bik  return builder.create<gpu::AllocOp>(loc, TypeRange({memTp, token.getType()}),
76a80a08SAart Bik                                      token, size, ValueRange());
76a80a08SAart Bik}
76a80a08SAart Bik
ee42e236SAart Bik// Allocates a void buffer on the device with given size.
ee42e236SAart Bikstatic gpu::AllocOp genAllocBuffer(OpBuilder &builder, Location loc, Value size,
ee42e236SAart Bik                                   Value token) {
76a80a08SAart Bik  return genAllocBuffer(builder, loc, builder.getI8Type(), size, token);
ee42e236SAart Bik}
ee42e236SAart Bik
86888e42SAart Bik/// Deallocates memory from the device.
86888e42SAart Bikstatic Value genDeallocMemRef(OpBuilder &builder, Location loc, Value mem,
86888e42SAart Bik                              Value token) {
86888e42SAart Bik  return builder.create<gpu::DeallocOp>(loc, token.getType(), token, mem)
86888e42SAart Bik      .getAsyncToken();
86888e42SAart Bik}
86888e42SAart Bik
86888e42SAart Bik/// Copies memory between host and device (direction is implicit).
86888e42SAart Bikstatic Value genCopyMemRef(OpBuilder &builder, Location loc, Value dst,
86888e42SAart Bik                           Value src, Value token) {
86888e42SAart Bik  return builder.create<gpu::MemcpyOp>(loc, token.getType(), token, dst, src)
86888e42SAart Bik      .getAsyncToken();
86888e42SAart Bik}
86888e42SAart Bik
ee42e236SAart Bik/// Generates an alloc/copy pair.
ee42e236SAart Bikstatic Value genAllocCopy(OpBuilder &builder, Location loc, Value b,
ee42e236SAart Bik                          SmallVectorImpl<Value> &tokens) {
ee42e236SAart Bik  Value firstToken = genFirstWait(builder, loc);
ee42e236SAart Bik  auto alloc = genAllocMemRef(builder, loc, b, firstToken);
ee42e236SAart Bik  Value devMem = alloc.getResult(0);
ee42e236SAart Bik  Value depToken = alloc.getAsyncToken(); // copy-after-alloc
ee42e236SAart Bik  tokens.push_back(genCopyMemRef(builder, loc, devMem, b, depToken));
ee42e236SAart Bik  return devMem;
ee42e236SAart Bik}
ee42e236SAart Bik
ee42e236SAart Bik/// Generates a memref from tensor operation.
ee42e236SAart Bikstatic Value genTensorToMemref(PatternRewriter &rewriter, Location loc,
ee42e236SAart Bik                               Value tensor) {
68f58812STres Popp  auto tensorType = llvm::cast<ShapedType>(tensor.getType());
ee42e236SAart Bik  auto memrefType =
ee42e236SAart Bik      MemRefType::get(tensorType.getShape(), tensorType.getElementType());
ee42e236SAart Bik  return rewriter.create<bufferization::ToMemrefOp>(loc, memrefType, tensor);
ee42e236SAart Bik}
ee42e236SAart Bik
86888e42SAart Bik/// Prepares the outlined arguments, passing scalars and buffers in. Here we
86888e42SAart Bik/// assume that the first buffer is the one allocated for output. We create
86888e42SAart Bik/// a set of properly chained asynchronous allocation/copy pairs to increase
86888e42SAart Bik/// overlap before launching the kernel.
86888e42SAart Bikstatic Value genParametersIn(OpBuilder &builder, Location loc,
86888e42SAart Bik                             SmallVectorImpl<Value> &scalars,
86888e42SAart Bik                             SmallVectorImpl<Value> &buffers,
86888e42SAart Bik                             SmallVectorImpl<Value> &args,
86888e42SAart Bik                             SmallVectorImpl<Value> &tokens,
86888e42SAart Bik                             bool useHostRegistrationForOut) {
86888e42SAart Bik  Value out;
86888e42SAart Bik  // Scalars are passed by value.
86888e42SAart Bik  for (Value s : scalars)
86888e42SAart Bik    args.push_back(s);
86888e42SAart Bik  // Buffers are need to be made visible on device.
86888e42SAart Bik  for (Value b : buffers) {
86888e42SAart Bik    if (useHostRegistrationForOut) {
86888e42SAart Bik      out = genHostRegisterMemref(builder, loc, b);
86888e42SAart Bik      args.push_back(b);
86888e42SAart Bik      useHostRegistrationForOut = false;
86888e42SAart Bik      continue;
86888e42SAart Bik    }
ee42e236SAart Bik    args.push_back(genAllocCopy(builder, loc, b, tokens));
86888e42SAart Bik  }
86888e42SAart Bik  return out;
86888e42SAart Bik}
86888e42SAart Bik
86888e42SAart Bik/// Finalizes the outlined arguments. The output buffer is copied depending
86888e42SAart Bik/// on the kernel token and then deallocated. All other buffers are simply
86888e42SAart Bik/// deallocated. Then we wait for all operations to complete.
86888e42SAart Bikstatic void genParametersOut(OpBuilder &builder, Location loc, Value out,
86888e42SAart Bik                             Value kernelToken, SmallVectorImpl<Value> &scalars,
86888e42SAart Bik                             SmallVectorImpl<Value> &buffers,
86888e42SAart Bik                             SmallVectorImpl<Value> &args,
86888e42SAart Bik                             SmallVectorImpl<Value> &tokens) {
86888e42SAart Bik  unsigned base = scalars.size();
86888e42SAart Bik  for (unsigned i = base, e = args.size(); i < e; i++) {
86888e42SAart Bik    Value firstToken;
86888e42SAart Bik    if (i == base) {
86888e42SAart Bik      // Assumed output parameter: unregister or copy-out.
86888e42SAart Bik      if (out) {
86888e42SAart Bik        genHostUnregisterMemref(builder, loc, out);
86888e42SAart Bik        out = Value();
86888e42SAart Bik        continue;
86888e42SAart Bik      }
86888e42SAart Bik      firstToken =
86888e42SAart Bik          genCopyMemRef(builder, loc, buffers[0], args[i], kernelToken);
86888e42SAart Bik    } else {
86888e42SAart Bik      firstToken = genFirstWait(builder, loc);
86888e42SAart Bik    }
86888e42SAart Bik    tokens.push_back(genDeallocMemRef(builder, loc, args[i], firstToken));
86888e42SAart Bik  }
19466ebcSAart Bik}
19466ebcSAart Bik
19466ebcSAart Bik/// Constructs code for new GPU kernel.
19466ebcSAart Bikstatic void genGPUCode(PatternRewriter &rewriter, gpu::GPUFuncOp gpuFunc,
19466ebcSAart Bik                       scf::ParallelOp forallOp,
19466ebcSAart Bik                       SmallVectorImpl<Value> &constants,
19466ebcSAart Bik                       SmallVectorImpl<Value> &scalars,
19466ebcSAart Bik                       SmallVectorImpl<Value> &buffers) {
19466ebcSAart Bik  Location loc = gpuFunc->getLoc();
19466ebcSAart Bik  Block &block = gpuFunc.getBody().front();
19466ebcSAart Bik  rewriter.setInsertionPointToStart(&block);
19466ebcSAart Bik
19466ebcSAart Bik  // Re-generate the constants, recapture all arguments.
19466ebcSAart Bik  unsigned arg = 0;
19466ebcSAart Bik  IRMapping irMap;
19466ebcSAart Bik  for (Value c : constants)
19466ebcSAart Bik    irMap.map(c, rewriter.clone(*c.getDefiningOp())->getResult(0));
19466ebcSAart Bik  for (Value s : scalars)
19466ebcSAart Bik    irMap.map(s, block.getArgument(arg++));
19466ebcSAart Bik  for (Value b : buffers)
19466ebcSAart Bik    irMap.map(b, block.getArgument(arg++));
19466ebcSAart Bik
19466ebcSAart Bik  // Assume 1-dimensional grid/block configuration (only x dimension),
19466ebcSAart Bik  // so that:
19466ebcSAart Bik  //   row = blockIdx.x * blockDim.x + threadIdx.x
19466ebcSAart Bik  //   inc = blockDim.x * gridDim.x
19466ebcSAart Bik  Value bid = rewriter.create<gpu::BlockIdOp>(loc, gpu::Dimension::x);
19466ebcSAart Bik  Value bsz = rewriter.create<gpu::BlockDimOp>(loc, gpu::Dimension::x);
19466ebcSAart Bik  Value tid = rewriter.create<gpu::ThreadIdOp>(loc, gpu::Dimension::x);
19466ebcSAart Bik  Value gsz = rewriter.create<gpu::GridDimOp>(loc, gpu::Dimension::x);
19466ebcSAart Bik  Value mul = rewriter.create<arith::MulIOp>(loc, bid, bsz);
19466ebcSAart Bik  Value row = rewriter.create<arith::AddIOp>(loc, mul, tid);
19466ebcSAart Bik  Value inc = rewriter.create<arith::MulIOp>(loc, bsz, gsz);
19466ebcSAart Bik
19466ebcSAart Bik  // Construct the iteration over the computational space that
19466ebcSAart Bik  // accounts for the fact that the total number of threads and
19466ebcSAart Bik  // the amount of work to be done usually do not match precisely.
19466ebcSAart Bik  //   for (r = row; r < N; r += inc) {
19466ebcSAart Bik  //     <loop-body>
19466ebcSAart Bik  //   }
19466ebcSAart Bik  Value upper = irMap.lookup(forallOp.getUpperBound()[0]);
19466ebcSAart Bik  scf::ForOp forOp = rewriter.create<scf::ForOp>(loc, row, upper, inc);
861600f1SMatthias Springer  // The scf.for builder creates an empty block. scf.for does not allow multiple
861600f1SMatthias Springer  // blocks in its region, so delete the block before `cloneRegionBefore` adds
861600f1SMatthias Springer  // an additional block.
861600f1SMatthias Springer  rewriter.eraseBlock(forOp.getBody());
9b5ef2beSMatthias Springer  rewriter.cloneRegionBefore(forallOp.getRegion(), forOp.getRegion(),
9b5ef2beSMatthias Springer                             forOp.getRegion().begin(), irMap);
10056c82SMatthias Springer  // Replace the scf.reduce terminator.
10056c82SMatthias Springer  rewriter.setInsertionPoint(forOp.getBody()->getTerminator());
10056c82SMatthias Springer  rewriter.replaceOpWithNewOp<scf::YieldOp>(forOp.getBody()->getTerminator());
19466ebcSAart Bik
19466ebcSAart Bik  // Done.
19466ebcSAart Bik  rewriter.setInsertionPointAfter(forOp);
19466ebcSAart Bik  rewriter.create<gpu::ReturnOp>(gpuFunc->getLoc());
19466ebcSAart Bik}
19466ebcSAart Bik
19466ebcSAart Bik//===----------------------------------------------------------------------===//
ee42e236SAart Bik// Library helper methods.
19466ebcSAart Bik//===----------------------------------------------------------------------===//
19466ebcSAart Bik
f14c8eb5SAart Bik/// Helper to detect a + b with arguments taken from given block.
f14c8eb5SAart Bikstatic bool matchAddOfArgs(Block *block, Value val) {
ee42e236SAart Bik  if (auto *def = val.getDefiningOp()) {
f14c8eb5SAart Bik    if (isa<arith::AddFOp, arith::AddIOp>(def)) {
f14c8eb5SAart Bik      Value a = block->getArguments()[0];
f14c8eb5SAart Bik      Value b = block->getArguments()[1];
f14c8eb5SAart Bik      return (def->getOperand(0) == a && def->getOperand(1) == b) ||
f14c8eb5SAart Bik             (def->getOperand(0) == b && def->getOperand(1) == a);
f14c8eb5SAart Bik    }
f14c8eb5SAart Bik  }
f14c8eb5SAart Bik  return false;
f14c8eb5SAart Bik}
f14c8eb5SAart Bik
f14c8eb5SAart Bik/// Helper to detect a * b with arguments taken from given block.
f14c8eb5SAart Bikstatic bool matchMulOfArgs(Block *block, Value val) {
f14c8eb5SAart Bik  if (auto *def = val.getDefiningOp()) {
f14c8eb5SAart Bik    if (isa<arith::MulFOp, arith::MulIOp>(def)) {
f14c8eb5SAart Bik      Value a = block->getArguments()[0];
f14c8eb5SAart Bik      Value b = block->getArguments()[1];
ee42e236SAart Bik      return (def->getOperand(0) == a && def->getOperand(1) == b) ||
ee42e236SAart Bik             (def->getOperand(0) == b && def->getOperand(1) == a);
ee42e236SAart Bik    }
ee42e236SAart Bik  }
ee42e236SAart Bik  return false;
ee42e236SAart Bik}
ee42e236SAart Bik
ee42e236SAart Bik/// Helper to detect x = x + a * b
ee42e236SAart Bikstatic bool matchSumOfMultOfArgs(linalg::GenericOp op) {
ee42e236SAart Bik  auto yieldOp = cast<linalg::YieldOp>(op.getRegion().front().getTerminator());
ee42e236SAart Bik  if (auto *def = yieldOp.getOperand(0).getDefiningOp()) {
f14c8eb5SAart Bik    if (isa<arith::AddFOp, arith::AddIOp>(def)) {
ee42e236SAart Bik      Value x = op.getBlock()->getArguments()[2];
ee42e236SAart Bik      return (def->getOperand(0) == x &&
f14c8eb5SAart Bik              matchMulOfArgs(op.getBlock(), def->getOperand(1))) ||
ee42e236SAart Bik             (def->getOperand(1) == x &&
f14c8eb5SAart Bik              matchMulOfArgs(op.getBlock(), def->getOperand(0)));
ee42e236SAart Bik    }
ee42e236SAart Bik  }
ee42e236SAart Bik  return false;
ee42e236SAart Bik}
ee42e236SAart Bik
f14c8eb5SAart Bik// Helper to detect c += spy(s) x (a * b)
9167dd46SKun Wustatic bool matchSumReductionOfMulUnary(linalg::GenericOp op) {
9167dd46SKun Wu  auto yieldOp = cast<linalg::YieldOp>(op.getRegion().front().getTerminator());
f14c8eb5SAart Bik  // The linalg yields a custom reduce result.
9167dd46SKun Wu  Value s_out = op.getBlock()->getArguments()[2];
f14c8eb5SAart Bik  if (auto redOp =
f14c8eb5SAart Bik          yieldOp.getOperand(0).getDefiningOp<sparse_tensor::ReduceOp>()) {
f14c8eb5SAart Bik    // The reduce consumes the output.
f14c8eb5SAart Bik    Value other;
f14c8eb5SAart Bik    if (s_out == redOp->getOperand(0))
f14c8eb5SAart Bik      other = redOp->getOperand(1);
f14c8eb5SAart Bik    else if (s_out == redOp->getOperand(1))
f14c8eb5SAart Bik      other = redOp->getOperand(0);
f14c8eb5SAart Bik    else
9167dd46SKun Wu      return false;
f14c8eb5SAart Bik    // The reduce op also consumes an unary which also consumes the output
f14c8eb5SAart Bik    // and does not define an absent value.
f14c8eb5SAart Bik    if (auto unOp = other.getDefiningOp<sparse_tensor::UnaryOp>()) {
f14c8eb5SAart Bik      if (s_out != unOp->getOperand(0) || !unOp.getAbsentRegion().empty())
9167dd46SKun Wu        return false;
f14c8eb5SAart Bik      // And the bodies are as expected.
f14c8eb5SAart Bik      auto yieldUn = cast<sparse_tensor::YieldOp>(
f14c8eb5SAart Bik          unOp.getRegion(0).front().getTerminator());
f14c8eb5SAart Bik      auto yieldRed = cast<sparse_tensor::YieldOp>(
f14c8eb5SAart Bik          redOp.getRegion().front().getTerminator());
f14c8eb5SAart Bik      return matchMulOfArgs(op.getBlock(), yieldUn.getOperand(0)) &&
f14c8eb5SAart Bik             matchAddOfArgs(&redOp.getRegion().front(), yieldRed.getOperand(0));
9167dd46SKun Wu    }
9167dd46SKun Wu  }
f14c8eb5SAart Bik  return false;
9167dd46SKun Wu}
9167dd46SKun Wu
3231a365SAart Bik/// Test for dense tensor.
e37fc3ccSK-Wustatic bool isDenseTensor(Value v) {
3231a365SAart Bik  auto sTp = getSparseTensorType(v);
3231a365SAart Bik  return sTp.getDimRank() == sTp.getLvlRank() && sTp.isAllDense();
e37fc3ccSK-Wu}
e37fc3ccSK-Wu
3231a365SAart Bik/// Test for suitable positions/coordinates width.
3231a365SAart Bikstatic bool isAdmissibleMetaData(SparseTensorType &aTp) {
3231a365SAart Bik  return (aTp.getPosWidth() == 0 || aTp.getPosWidth() >= 16) &&
3231a365SAart Bik         (aTp.getCrdWidth() == 0 || aTp.getCrdWidth() >= 16);
3231a365SAart Bik}
3231a365SAart Bik
3231a365SAart Bik/// Test for sorted COO matrix with suitable metadata.
ee42e236SAart Bikstatic bool isAdmissibleCOO(SparseTensorType &aTp) {
3231a365SAart Bik  return aTp.getDimRank() == 2 && aTp.getLvlRank() == 2 && aTp.isIdentity() &&
3231a365SAart Bik         aTp.isCompressedLvl(0) && aTp.isOrderedLvl(0) && !aTp.isUniqueLvl(0) &&
ee42e236SAart Bik         aTp.isSingletonLvl(1) && aTp.isOrderedLvl(1) && aTp.isUniqueLvl(1) &&
3231a365SAart Bik         isAdmissibleMetaData(aTp);
ee42e236SAart Bik}
ee42e236SAart Bik
3231a365SAart Bik/// Test for CSR matrix with suitable metadata.
ee42e236SAart Bikstatic bool isAdmissibleCSR(SparseTensorType &aTp) {
3231a365SAart Bik  return aTp.getDimRank() == 2 && aTp.getLvlRank() == 2 && aTp.isIdentity() &&
3231a365SAart Bik         aTp.isDenseLvl(0) && aTp.isCompressedLvl(1) && aTp.isOrderedLvl(1) &&
3231a365SAart Bik         aTp.isUniqueLvl(1) && isAdmissibleMetaData(aTp);
ee42e236SAart Bik}
ee42e236SAart Bik
3231a365SAart Bik/// Test for CSC matrix with suitable metadata.
3231a365SAart Bikstatic bool isAdmissibleCSC(SparseTensorType &aTp) {
3231a365SAart Bik  return aTp.getDimRank() == 2 && aTp.getLvlRank() == 2 && !aTp.isIdentity() &&
3231a365SAart Bik         aTp.isPermutation() && aTp.isDenseLvl(0) && aTp.isCompressedLvl(1) &&
3231a365SAart Bik         aTp.isOrderedLvl(1) && aTp.isUniqueLvl(1) && isAdmissibleMetaData(aTp);
b75d6a40SAart Bik}
3231a365SAart Bik
3d89c088SAart Bik/// Test for BSR matrix with suitable metadata.
3d89c088SAart Bikstatic bool isAdmissibleBSR(SparseTensorType &aTp) {
3d89c088SAart Bik  if (aTp.getDimRank() == 2 && aTp.getLvlRank() == 4 && aTp.isDenseLvl(0) &&
3d89c088SAart Bik      aTp.isCompressedLvl(1) && aTp.isOrderedLvl(1) && aTp.isUniqueLvl(1) &&
3d89c088SAart Bik      aTp.isDenseLvl(2) && aTp.isDenseLvl(3) && isAdmissibleMetaData(aTp)) {
3d89c088SAart Bik    // CuSparse only supports "square" blocks currently.
3d89c088SAart Bik    SmallVector<unsigned> dims = getBlockSize(aTp.getDimToLvl());
3d89c088SAart Bik    assert(dims.size() == 2);
e35b6062SMaksim Levental    return dims[0] == dims[1] && dims[0] > 1;
3d89c088SAart Bik  }
3d89c088SAart Bik  return false;
3d89c088SAart Bik}
3d89c088SAart Bik
41a07e66SAart Bik/// Test for 2:4 matrix with suitable metadata.
41a07e66SAart Bikstatic bool isAdmissible24(SparseTensorType &aTp) {
41a07e66SAart Bik  return aTp.getDimRank() == 2 && aTp.getLvlRank() == 3 && aTp.isDenseLvl(0) &&
e5924d64SYinying Li         aTp.isDenseLvl(1) && aTp.isNOutOfMLvl(2) && isAdmissibleMetaData(aTp);
41a07e66SAart Bik}
41a07e66SAart Bik
41a07e66SAart Bik/// Test for conversion into 2:4 matrix.
41a07e66SAart Bikstatic bool isConversionInto24(Value v) {
41a07e66SAart Bik  if (auto cnv = v.getDefiningOp<ConvertOp>()) {
41a07e66SAart Bik    Value a = cnv.getResult();
41a07e66SAart Bik    Value d = cnv.getSource();
41a07e66SAart Bik    SparseTensorType aTp = getSparseTensorType(a);
41a07e66SAart Bik    return isDenseTensor(d) && isAdmissible24(aTp);
41a07e66SAart Bik  }
41a07e66SAart Bik  return false;
41a07e66SAart Bik}
41a07e66SAart Bik
3231a365SAart Bik/// Returns a suitable sparse format for the operation and given operand
3231a365SAart Bik/// types with cuSparse, or kNone if none is available.
3231a365SAart Bikstatic CuSparseFormat getCuSparseFormat(SparseTensorType aTp,
3231a365SAart Bik                                        SparseTensorType bTp,
3231a365SAart Bik                                        SparseTensorType cTp, bool enableRT,
3231a365SAart Bik                                        bool isMatVec) {
3231a365SAart Bik  // The other operands have a dense type.
3231a365SAart Bik  if (bTp.hasEncoding() || cTp.hasEncoding())
3231a365SAart Bik    return CuSparseFormat::kNone;
3231a365SAart Bik  // Now check for suitable operand type for the main operand.
3231a365SAart Bik  if (isAdmissibleCOO(aTp))
3231a365SAart Bik#ifdef CUSPARSE_COO_AOS
3231a365SAart Bik    return isMatVec ? CuSparseFormat::kCOO : CuSparseFormat::kNone;
3231a365SAart Bik#else
3231a365SAart Bik    return enableRT ? CuSparseFormat::kCOO : CuSparseFormat::kNone;
3231a365SAart Bik#endif
3231a365SAart Bik  if (isAdmissibleCSR(aTp))
3231a365SAart Bik    return CuSparseFormat::kCSR;
3231a365SAart Bik  if (isAdmissibleCSC(aTp))
3231a365SAart Bik    return CuSparseFormat::kCSC;
3d89c088SAart Bik  if (isAdmissibleBSR(aTp))
3d89c088SAart Bik    return CuSparseFormat::kBSR;
3231a365SAart Bik  return CuSparseFormat::kNone;
b75d6a40SAart Bik}
b75d6a40SAart Bik
ee42e236SAart Bik/// Generates the first positions/coordinates of a sparse matrix.
ee42e236SAart Bikstatic Value genFirstPosOrCrds(OpBuilder &builder, Location loc, Value a,
3231a365SAart Bik                               CuSparseFormat format, bool enableRT) {
3231a365SAart Bik  if (format == CuSparseFormat::kCOO) {
ee42e236SAart Bik    // Library uses SoA COO, direct IR uses AoS COO.
ee42e236SAart Bik    if (enableRT)
1a0986f0SPeiming Liu      return builder.create<ToCoordinatesOp>(loc, a, 0);
1a0986f0SPeiming Liu    return builder.create<ToCoordinatesBufferOp>(loc, a);
ee42e236SAart Bik  }
3231a365SAart Bik  // Formats CSR/CSC and BSR use positions at 1.
1a0986f0SPeiming Liu  return builder.create<ToPositionsOp>(loc, a, 1);
ee42e236SAart Bik}
ee42e236SAart Bik
ee42e236SAart Bik/// Generates the second coordinates of a sparse matrix.
ee42e236SAart Bikstatic Value genSecondCrds(OpBuilder &builder, Location loc, Value a,
3231a365SAart Bik                           CuSparseFormat format, bool enableRT) {
3231a365SAart Bik  bool isCOO = format == CuSparseFormat::kCOO;
ee42e236SAart Bik  if (isCOO && !enableRT)
ee42e236SAart Bik    return Value(); // nothing needed
3231a365SAart Bik  // Formats CSR/CSC and BSR use coordinates at 1.
1a0986f0SPeiming Liu  return builder.create<ToCoordinatesOp>(loc, a, 1);
ee42e236SAart Bik}
ee42e236SAart Bik
3231a365SAart Bik/// Generates the sparse matrix handle.
3d89c088SAart Bikstatic Operation *genSpMat(OpBuilder &builder, Location loc,
3d89c088SAart Bik                           SparseTensorType &aTp, Type handleTp, Type tokenTp,
3d89c088SAart Bik                           Value token, Value sz1, Value sz2, Value nseA,
3d89c088SAart Bik                           Value rowA, Value colA, Value valA,
3231a365SAart Bik                           CuSparseFormat format, bool enableRT) {
3231a365SAart Bik  if (format == CuSparseFormat::kCOO) {
ee42e236SAart Bik    // Library uses SoA COO, direct IR uses AoS COO.
bcb698bfSAart Bik    if (enableRT) {
bcb698bfSAart Bik      assert(colA);
ee42e236SAart Bik      return builder.create<gpu::CreateCooOp>(loc, handleTp, tokenTp, token,
bcb698bfSAart Bik                                              sz1, sz2, nseA, rowA, colA, valA);
bcb698bfSAart Bik    }
9fc02a7aSAart Bik#ifdef CUSPARSE_COO_AOS
9fc02a7aSAart Bik    assert(!colA);
9fc02a7aSAart Bik    return builder.create<gpu::CreateCooAoSOp>(loc, handleTp, tokenTp, token,
9fc02a7aSAart Bik                                               sz1, sz2, nseA, rowA, valA);
9fc02a7aSAart Bik#else
ee42e236SAart Bik    llvm_unreachable("gpu::CreateCooAoSOp is deprecated");
9fc02a7aSAart Bik#endif
ee42e236SAart Bik  }
bcb698bfSAart Bik  assert(colA);
3231a365SAart Bik  if (format == CuSparseFormat::kCSR)
bcb698bfSAart Bik    return builder.create<gpu::CreateCsrOp>(loc, handleTp, tokenTp, token, sz1,
bcb698bfSAart Bik                                            sz2, nseA, rowA, colA, valA);
3d89c088SAart Bik  if (format == CuSparseFormat::kCSC)
3231a365SAart Bik    return builder.create<gpu::CreateCscOp>(loc, handleTp, tokenTp, token, sz1,
3231a365SAart Bik                                            sz2, nseA, rowA, colA, valA);
3d89c088SAart Bik  // BSR requires a bit more work since we need to pass in the block size
3d89c088SAart Bik  // and all others sizes in terms of blocks (#block-rows, #block-cols,
3d89c088SAart Bik  // #nonzero-blocks).
3d89c088SAart Bik  assert(format == CuSparseFormat::kBSR);
3d89c088SAart Bik  SmallVector<unsigned> dims = getBlockSize(aTp.getDimToLvl());
3d89c088SAart Bik  assert(dims.size() == 2 && dims[0] == dims[1]);
3d89c088SAart Bik  uint64_t b = dims[0];
3d89c088SAart Bik  Value bSz = constantIndex(builder, loc, b);
3d89c088SAart Bik  Value bRows = builder.create<arith::DivUIOp>(loc, sz1, bSz);
3d89c088SAart Bik  Value bCols = builder.create<arith::DivUIOp>(loc, sz2, bSz);
3d89c088SAart Bik  Value bNum = builder.create<arith::DivUIOp>(
3d89c088SAart Bik      loc, nseA, constantIndex(builder, loc, b * b));
3d89c088SAart Bik  return builder.create<gpu::CreateBsrOp>(loc, handleTp, tokenTp, token, bRows,
3d89c088SAart Bik                                          bCols, bNum, bSz, bSz, rowA, colA,
3d89c088SAart Bik                                          valA);
ee42e236SAart Bik}
ee42e236SAart Bik
ee42e236SAart Bik/// Match and rewrite SpMV kernel.
5ef44679SAart Bikstatic LogicalResult rewriteSpMV(PatternRewriter &rewriter,
5ef44679SAart Bik                                 linalg::GenericOp op, bool enableRT) {
ee42e236SAart Bik  Location loc = op.getLoc();
ee42e236SAart Bik  Value a = op.getOperand(0);
ee42e236SAart Bik  Value x = op.getOperand(1);
ee42e236SAart Bik  Value y = op.getOperand(2); // we have y = Ax
ee42e236SAart Bik  SmallVector<Value> tokens;
ee42e236SAart Bik
3231a365SAart Bik  // Only admissible sparse matrix format and dense vectors (no BSR).
ee42e236SAart Bik  SparseTensorType aTp = getSparseTensorType(a);
ee42e236SAart Bik  SparseTensorType xTp = getSparseTensorType(x);
ee42e236SAart Bik  SparseTensorType yTp = getSparseTensorType(y);
3231a365SAart Bik  auto format = getCuSparseFormat(aTp, xTp, yTp, enableRT, /*isMatVec=*/true);
3231a365SAart Bik  if (format == CuSparseFormat::kNone || format == CuSparseFormat::kBSR)
ee42e236SAart Bik    return failure();
ee42e236SAart Bik
ee42e236SAart Bik  // Start sparse kernel and copy data from host to device.
ee42e236SAart Bik  //   a : memR/memC/memV -> rowA,colA,valA
ee42e236SAart Bik  //   x : memX           -> vecX
ee42e236SAart Bik  //   y : memY           -> vecY
b75d6a40SAart Bik  Value nseA = rewriter.create<NumberOfEntriesOp>(loc, a);
ee42e236SAart Bik  Value szY = linalg::createOrFoldDimOp(rewriter, loc, a, 0);
ee42e236SAart Bik  Value szX = linalg::createOrFoldDimOp(rewriter, loc, a, 1);
3231a365SAart Bik  Value memR = genFirstPosOrCrds(rewriter, loc, a, format, enableRT);
5ef44679SAart Bik  Value memC = genSecondCrds(rewriter, loc, a, format, enableRT); // or empty
1a0986f0SPeiming Liu  Value memV = rewriter.create<ToValuesOp>(loc, a);
ee42e236SAart Bik  Value rowA = genAllocCopy(rewriter, loc, memR, tokens);
ee42e236SAart Bik  Value colA = memC ? genAllocCopy(rewriter, loc, memC, tokens) : Value();
ee42e236SAart Bik  Value valA = genAllocCopy(rewriter, loc, memV, tokens);
5ef44679SAart Bik  Value memX = genTensorToMemref(rewriter, loc, x);
5ef44679SAart Bik  Value vecX = genAllocCopy(rewriter, loc, memX, tokens);
5ef44679SAart Bik  Value memY = genTensorToMemref(rewriter, loc, y);
ee42e236SAart Bik  Value vecY = genAllocCopy(rewriter, loc, memY, tokens);
ee42e236SAart Bik  genBlockingWait(rewriter, loc, tokens);
ee42e236SAart Bik  tokens.clear();
ee42e236SAart Bik
ee42e236SAart Bik  // Create sparse environment and sparse matrix/dense vector handles.
ee42e236SAart Bik  Type indexTp = rewriter.getIndexType();
97f4c22bSKun Wu  Type dnTensorHandleTp = rewriter.getType<gpu::SparseDnTensorHandleType>();
86bf710cSKun Wu  Type spmatHandleTp = rewriter.getType<gpu::SparseSpMatHandleType>();
ee42e236SAart Bik  Type tokenTp = rewriter.getType<gpu::AsyncTokenType>();
ee42e236SAart Bik  Value token = genFirstWait(rewriter, loc);
86bf710cSKun Wu  Operation *spGenA =
3d89c088SAart Bik      genSpMat(rewriter, loc, aTp, spmatHandleTp, tokenTp, token, szY, szX,
3d89c088SAart Bik               nseA, rowA, colA, valA, format, enableRT);
ee42e236SAart Bik  Value spMatA = spGenA->getResult(0);
ee42e236SAart Bik  token = spGenA->getResult(1);
97f4c22bSKun Wu  auto dvecX = rewriter.create<gpu::CreateDnTensorOp>(
be2dd22bSKun Wu      loc, dnTensorHandleTp, tokenTp, token, vecX, szX);
ee42e236SAart Bik  Value dnX = dvecX.getResult(0);
ee42e236SAart Bik  token = dvecX.getAsyncToken();
97f4c22bSKun Wu  auto dvecY = rewriter.create<gpu::CreateDnTensorOp>(
be2dd22bSKun Wu      loc, dnTensorHandleTp, tokenTp, token, vecY, szY);
ee42e236SAart Bik  Value dnY = dvecY.getResult(0);
ee42e236SAart Bik  token = dvecY.getAsyncToken();
fa98bdbdSKun Wu  auto dnYType = llvm::cast<ShapedType>(y.getType()).getElementType();
fa98bdbdSKun Wu
ee42e236SAart Bik  // Precompute buffersize for SpMV.
ee42e236SAart Bik  auto bufferComp = rewriter.create<gpu::SpMVBufferSizeOp>(
be2dd22bSKun Wu      loc, indexTp, tokenTp, token, spMatA, dnX, dnY,
fa98bdbdSKun Wu      /*computeType=*/dnYType);
ee42e236SAart Bik  Value bufferSz = bufferComp.getResult(0);
ee42e236SAart Bik  token = bufferComp.getAsyncToken();
ee42e236SAart Bik  auto buf = genAllocBuffer(rewriter, loc, bufferSz, token);
ee42e236SAart Bik  Value buffer = buf.getResult(0);
ee42e236SAart Bik  token = buf.getAsyncToken();
ee42e236SAart Bik
ee42e236SAart Bik  // Perform the SpMV.
be2dd22bSKun Wu  auto spmvComp = rewriter.create<gpu::SpMVOp>(
be2dd22bSKun Wu      loc, tokenTp, token, spMatA, dnX, dnY, /*computeType=*/dnYType, buffer);
ee42e236SAart Bik  token = spmvComp.getAsyncToken();
ee42e236SAart Bik
ee42e236SAart Bik  // Copy data back to host and free all the resoures.
ee42e236SAart Bik  token = rewriter.create<gpu::DestroySpMatOp>(loc, tokenTp, token, spMatA)
ee42e236SAart Bik              .getAsyncToken();
97f4c22bSKun Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnX)
ee42e236SAart Bik              .getAsyncToken();
97f4c22bSKun Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnY)
ee42e236SAart Bik              .getAsyncToken();
ee42e236SAart Bik  token = genDeallocMemRef(rewriter, loc, rowA, token);
ee42e236SAart Bik  if (colA)
ee42e236SAart Bik    token = genDeallocMemRef(rewriter, loc, colA, token);
ee42e236SAart Bik  token = genDeallocMemRef(rewriter, loc, valA, token);
ee42e236SAart Bik  token = genDeallocMemRef(rewriter, loc, buffer, token);
ee42e236SAart Bik  token = genDeallocMemRef(rewriter, loc, vecX, token);
bcb698bfSAart Bik  token = genCopyMemRef(rewriter, loc, memY, vecY, token);
ee42e236SAart Bik  token = genDeallocMemRef(rewriter, loc, vecY, token);
ee42e236SAart Bik  tokens.push_back(token);
ee42e236SAart Bik  genBlockingWait(rewriter, loc, tokens);
76a80a08SAart Bik  tokens.clear();
ee42e236SAart Bik
ee42e236SAart Bik  // Done.
bcb698bfSAart Bik  rewriter.replaceOpWithNewOp<bufferization::ToTensorOp>(op, memY);
ee42e236SAart Bik  return success();
ee42e236SAart Bik}
ee42e236SAart Bik
ee42e236SAart Bik/// Match and rewrite SpMM kernel.
5ef44679SAart Bikstatic LogicalResult rewriteSpMM(PatternRewriter &rewriter,
5ef44679SAart Bik                                 linalg::GenericOp op, bool enableRT) {
b75d6a40SAart Bik  Location loc = op.getLoc();
b75d6a40SAart Bik  Value a = op.getOperand(0);
b75d6a40SAart Bik  Value b = op.getOperand(1);
b75d6a40SAart Bik  Value c = op.getOperand(2); // we have C = AB
b75d6a40SAart Bik  SmallVector<Value> tokens;
b75d6a40SAart Bik
3231a365SAart Bik  // Only admissible sparse matrix format and dense matrices (no BSR).
b75d6a40SAart Bik  SparseTensorType aTp = getSparseTensorType(a);
b75d6a40SAart Bik  SparseTensorType bTp = getSparseTensorType(b);
b75d6a40SAart Bik  SparseTensorType cTp = getSparseTensorType(c);
3231a365SAart Bik  auto format = getCuSparseFormat(aTp, bTp, cTp, enableRT, /*isMatVec=*/false);
3231a365SAart Bik  if (format == CuSparseFormat::kNone || format == CuSparseFormat::kBSR)
b75d6a40SAart Bik    return failure();
b75d6a40SAart Bik
b75d6a40SAart Bik  // Start sparse kernel and copy data from host to device.
b75d6a40SAart Bik  //   a : memR/memC/memV -> rowA,colA,valA
5ef44679SAart Bik  //   b : bufB           -> matB
b75d6a40SAart Bik  //   c : bufC           -> matC
b75d6a40SAart Bik  Value nseA = rewriter.create<NumberOfEntriesOp>(loc, a);
b75d6a40SAart Bik  Value szm = linalg::createOrFoldDimOp(rewriter, loc, a, 0);
b75d6a40SAart Bik  Value szk = linalg::createOrFoldDimOp(rewriter, loc, a, 1);
b75d6a40SAart Bik  Value szn = linalg::createOrFoldDimOp(rewriter, loc, b, 1);
3231a365SAart Bik  Value memR = genFirstPosOrCrds(rewriter, loc, a, format, enableRT);
5ef44679SAart Bik  Value memC = genSecondCrds(rewriter, loc, a, format, enableRT); // or empty
1a0986f0SPeiming Liu  Value memV = rewriter.create<ToValuesOp>(loc, a);
b75d6a40SAart Bik  Value rowA = genAllocCopy(rewriter, loc, memR, tokens);
b75d6a40SAart Bik  Value colA = memC ? genAllocCopy(rewriter, loc, memC, tokens) : Value();
b75d6a40SAart Bik  Value valA = genAllocCopy(rewriter, loc, memV, tokens);
5ef44679SAart Bik  Value bufB = genTensorToMemref(rewriter, loc, b);
5ef44679SAart Bik  Value matB = genAllocCopy(rewriter, loc, bufB, tokens);
5ef44679SAart Bik  Value bufC = genTensorToMemref(rewriter, loc, c);
b75d6a40SAart Bik  Value matC = genAllocCopy(rewriter, loc, bufC, tokens);
b75d6a40SAart Bik  genBlockingWait(rewriter, loc, tokens);
b75d6a40SAart Bik  tokens.clear();
b75d6a40SAart Bik
b75d6a40SAart Bik  // Create sparse environment and sparse matrix/dense matrix handles.
b75d6a40SAart Bik  Type indexTp = rewriter.getIndexType();
97f4c22bSKun Wu  Type dnTensorHandleTp = rewriter.getType<gpu::SparseDnTensorHandleType>();
86bf710cSKun Wu  Type spMatHandleTp = rewriter.getType<gpu::SparseSpMatHandleType>();
b75d6a40SAart Bik  Type tokenTp = rewriter.getType<gpu::AsyncTokenType>();
b75d6a40SAart Bik  Value token = genFirstWait(rewriter, loc);
86bf710cSKun Wu  Operation *spGenA =
3d89c088SAart Bik      genSpMat(rewriter, loc, aTp, spMatHandleTp, tokenTp, token, szm, szk,
3d89c088SAart Bik               nseA, rowA, colA, valA, format, enableRT);
b75d6a40SAart Bik  Value spMatA = spGenA->getResult(0);
b75d6a40SAart Bik  token = spGenA->getResult(1);
97f4c22bSKun Wu  auto dmatB = rewriter.create<gpu::CreateDnTensorOp>(
be2dd22bSKun Wu      loc, dnTensorHandleTp, tokenTp, token, matB,
97f4c22bSKun Wu      SmallVector<Value>{szk, szn});
b75d6a40SAart Bik  Value dnB = dmatB.getResult(0);
b75d6a40SAart Bik  token = dmatB.getAsyncToken();
97f4c22bSKun Wu  auto dmatC = rewriter.create<gpu::CreateDnTensorOp>(
be2dd22bSKun Wu      loc, dnTensorHandleTp, tokenTp, token, matC,
97f4c22bSKun Wu      SmallVector<Value>{szm, szn});
b75d6a40SAart Bik  Value dnC = dmatC.getResult(0);
b75d6a40SAart Bik  token = dmatC.getAsyncToken();
fa98bdbdSKun Wu  auto dmatCType = llvm::cast<ShapedType>(c.getType()).getElementType();
fa98bdbdSKun Wu
b75d6a40SAart Bik  // Precompute buffersize for SpMM.
b75d6a40SAart Bik  auto bufferComp = rewriter.create<gpu::SpMMBufferSizeOp>(
be2dd22bSKun Wu      loc, indexTp, tokenTp, token, spMatA, dnB, dnC,
fa98bdbdSKun Wu      /*computeType=*/dmatCType);
b75d6a40SAart Bik  Value bufferSz = bufferComp.getResult(0);
b75d6a40SAart Bik  token = bufferComp.getAsyncToken();
b75d6a40SAart Bik  auto buf = genAllocBuffer(rewriter, loc, bufferSz, token);
b75d6a40SAart Bik  Value buffer = buf.getResult(0);
b75d6a40SAart Bik  token = buf.getAsyncToken();
fa98bdbdSKun Wu  auto dnCType = llvm::cast<ShapedType>(c.getType()).getElementType();
fa98bdbdSKun Wu
b75d6a40SAart Bik  // Perform the SpMM.
be2dd22bSKun Wu  auto spmmComp = rewriter.create<gpu::SpMMOp>(
be2dd22bSKun Wu      loc, tokenTp, token, spMatA, dnB, dnC, /*computeType=*/dnCType, buffer);
b75d6a40SAart Bik  token = spmmComp.getAsyncToken();
b75d6a40SAart Bik
b75d6a40SAart Bik  // Copy data back to host and free all the resoures.
b75d6a40SAart Bik  token = rewriter.create<gpu::DestroySpMatOp>(loc, tokenTp, token, spMatA)
b75d6a40SAart Bik              .getAsyncToken();
97f4c22bSKun Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnB)
b75d6a40SAart Bik              .getAsyncToken();
97f4c22bSKun Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnC)
b75d6a40SAart Bik              .getAsyncToken();
03125e68SAart Bik  token = genDeallocMemRef(rewriter, loc, rowA, token);
b75d6a40SAart Bik  if (colA)
b75d6a40SAart Bik    token = genDeallocMemRef(rewriter, loc, colA, token);
b75d6a40SAart Bik  token = genDeallocMemRef(rewriter, loc, valA, token);
b75d6a40SAart Bik  token = genDeallocMemRef(rewriter, loc, buffer, token);
b75d6a40SAart Bik  token = genDeallocMemRef(rewriter, loc, matB, token);
bcb698bfSAart Bik  token = genCopyMemRef(rewriter, loc, bufC, matC, token);
b75d6a40SAart Bik  token = genDeallocMemRef(rewriter, loc, matC, token);
b75d6a40SAart Bik  tokens.push_back(token);
b75d6a40SAart Bik  genBlockingWait(rewriter, loc, tokens);
76a80a08SAart Bik  tokens.clear();
b75d6a40SAart Bik
b75d6a40SAart Bik  // Done.
22caafc9SAart Bik  rewriter.replaceOpWithNewOp<bufferization::ToTensorOp>(op, bufC);
b75d6a40SAart Bik  return success();
ee42e236SAart Bik}
ee42e236SAart Bik
76a80a08SAart Bik// Match and rewrite SpGEMM kernel.
5ef44679SAart Bikstatic LogicalResult rewriteSpGEMM(PatternRewriter &rewriter,
5ef44679SAart Bik                                   linalg::GenericOp op, bool enableRT) {
76a80a08SAart Bik  Location loc = op.getLoc();
76a80a08SAart Bik  Value a = op.getOperand(0);
76a80a08SAart Bik  Value b = op.getOperand(1);
76a80a08SAart Bik  Value c = op.getOperand(2); // we have C = AB
76a80a08SAart Bik  SmallVector<Value> tokens;
76a80a08SAart Bik
76a80a08SAart Bik  // Only CSR <- CSR x CSR supported.
3231a365SAart Bik  auto format = CuSparseFormat::kCSR;
76a80a08SAart Bik  SparseTensorType aTp = getSparseTensorType(a);
76a80a08SAart Bik  SparseTensorType bTp = getSparseTensorType(b);
76a80a08SAart Bik  SparseTensorType cTp = getSparseTensorType(c);
76a80a08SAart Bik  if (!isAdmissibleCSR(aTp) || !isAdmissibleCSR(bTp) || !isAdmissibleCSR(cTp))
76a80a08SAart Bik    return failure();
76a80a08SAart Bik
76a80a08SAart Bik  // Start sparse kernel and copy data from host to device.
76a80a08SAart Bik  //   a : amemR/amemC/amemV -> rowA,colA,valA
76a80a08SAart Bik  //   b : bmemR/bmemC/bmemV -> rowB,colB,valB
76a80a08SAart Bik  //   c : materializes
76a80a08SAart Bik  auto dnCType = cTp.getElementType();
76a80a08SAart Bik  Value nseA = rewriter.create<NumberOfEntriesOp>(loc, a);
76a80a08SAart Bik  Value nseB = rewriter.create<NumberOfEntriesOp>(loc, b);
76a80a08SAart Bik  Value szm = linalg::createOrFoldDimOp(rewriter, loc, a, 0);
76a80a08SAart Bik  Value szk = linalg::createOrFoldDimOp(rewriter, loc, a, 1);
76a80a08SAart Bik  Value szn = linalg::createOrFoldDimOp(rewriter, loc, b, 1);
3231a365SAart Bik  Value amemR = genFirstPosOrCrds(rewriter, loc, a, format, enableRT);
5ef44679SAart Bik  Value amemC = genSecondCrds(rewriter, loc, a, format, enableRT); // not empty
1a0986f0SPeiming Liu  Value amemV = rewriter.create<ToValuesOp>(loc, a);
3231a365SAart Bik  Value bmemR = genFirstPosOrCrds(rewriter, loc, b, format, enableRT);
5ef44679SAart Bik  Value bmemC = genSecondCrds(rewriter, loc, b, format, enableRT); // not empty
1a0986f0SPeiming Liu  Value bmemV = rewriter.create<ToValuesOp>(loc, b);
76a80a08SAart Bik  Value rowA = genAllocCopy(rewriter, loc, amemR, tokens);
76a80a08SAart Bik  Value colA = genAllocCopy(rewriter, loc, amemC, tokens);
76a80a08SAart Bik  Value valA = genAllocCopy(rewriter, loc, amemV, tokens);
76a80a08SAart Bik  Value rowB = genAllocCopy(rewriter, loc, bmemR, tokens);
76a80a08SAart Bik  Value colB = genAllocCopy(rewriter, loc, bmemC, tokens);
76a80a08SAart Bik  Value valB = genAllocCopy(rewriter, loc, bmemV, tokens);
76a80a08SAart Bik  genBlockingWait(rewriter, loc, tokens);
76a80a08SAart Bik  tokens.clear();
76a80a08SAart Bik
76a80a08SAart Bik  // Create sparse environment and sparse matrix/dense vector handles.
76a80a08SAart Bik  Type indexTp = rewriter.getIndexType();
76a80a08SAart Bik  Type spmatHandleTp = rewriter.getType<gpu::SparseSpMatHandleType>();
76a80a08SAart Bik  Type descTp = rewriter.getType<gpu::SparseSpGEMMOpHandleType>();
76a80a08SAart Bik  Type tokenTp = rewriter.getType<gpu::AsyncTokenType>();
76a80a08SAart Bik  Value token = genFirstWait(rewriter, loc);
76a80a08SAart Bik  Operation *spGenA =
3d89c088SAart Bik      genSpMat(rewriter, loc, aTp, spmatHandleTp, tokenTp, token, szm, szk,
3d89c088SAart Bik               nseA, rowA, colA, valA, format, enableRT);
76a80a08SAart Bik  Value spMatA = spGenA->getResult(0);
76a80a08SAart Bik  token = spGenA->getResult(1);
76a80a08SAart Bik  Operation *spGenB =
3d89c088SAart Bik      genSpMat(rewriter, loc, bTp, spmatHandleTp, tokenTp, token, szk, szn,
3d89c088SAart Bik               nseB, rowB, colB, valB, format, enableRT);
76a80a08SAart Bik  Value spMatB = spGenB->getResult(0);
76a80a08SAart Bik  token = spGenB->getResult(1);
76a80a08SAart Bik
76a80a08SAart Bik  // Sparse matrix C materializes (also assumes beta == 0).
76a80a08SAart Bik  Value zero = constantIndex(rewriter, loc, 0);
76a80a08SAart Bik  Value one = constantIndex(rewriter, loc, 1);
76a80a08SAart Bik  Value mplus1 = rewriter.create<arith::AddIOp>(loc, szm, one);
76a80a08SAart Bik  auto e1 = genAllocBuffer(rewriter, loc, cTp.getPosType(), mplus1, token);
76a80a08SAart Bik  Value rowC = e1.getResult(0);
76a80a08SAart Bik  token = e1.getAsyncToken();
76a80a08SAart Bik  auto e2 = genAllocBuffer(rewriter, loc, cTp.getCrdType(), zero, token);
619a888dSAart Bik  Value colC = e2.getResult(0); // no free needed
76a80a08SAart Bik  token = e2.getAsyncToken();
76a80a08SAart Bik  auto e3 = genAllocBuffer(rewriter, loc, dnCType, zero, token);
619a888dSAart Bik  Value valC = e3.getResult(0); // no free needed
76a80a08SAart Bik  token = e3.getAsyncToken();
76a80a08SAart Bik  Operation *spGenC =
3d89c088SAart Bik      genSpMat(rewriter, loc, cTp, spmatHandleTp, tokenTp, token, szm, szn,
3d89c088SAart Bik               zero, rowC, colC, valC, format, enableRT);
76a80a08SAart Bik  Value spMatC = spGenC->getResult(0);
76a80a08SAart Bik  token = spGenC->getResult(1);
76a80a08SAart Bik
76a80a08SAart Bik  // Precompute buffersizes for SpGEMM.
76a80a08SAart Bik  Operation *descOp =
76a80a08SAart Bik      rewriter.create<gpu::SpGEMMCreateDescrOp>(loc, descTp, tokenTp, token);
76a80a08SAart Bik  Value desc = descOp->getResult(0);
76a80a08SAart Bik  token = descOp->getResult(1);
76a80a08SAart Bik  Operation *work1 = rewriter.create<gpu::SpGEMMWorkEstimationOrComputeOp>(
76a80a08SAart Bik      loc, indexTp, tokenTp, token, desc, gpu::TransposeMode::NON_TRANSPOSE,
76a80a08SAart Bik      gpu::TransposeMode::NON_TRANSPOSE, spMatA, spMatB, spMatC, dnCType, zero,
76a80a08SAart Bik      valC, gpu::SpGEMMWorkEstimationOrComputeKind::WORK_ESTIMATION);
76a80a08SAart Bik  Value bufferSz1 = work1->getResult(0);
76a80a08SAart Bik  token = work1->getResult(1);
76a80a08SAart Bik  auto buf1 = genAllocBuffer(rewriter, loc, bufferSz1, token);
76a80a08SAart Bik  Value buffer1 = buf1.getResult(0);
76a80a08SAart Bik  token = buf1.getAsyncToken();
76a80a08SAart Bik  Operation *work2 = rewriter.create<gpu::SpGEMMWorkEstimationOrComputeOp>(
76a80a08SAart Bik      loc, indexTp, tokenTp, token, desc, gpu::TransposeMode::NON_TRANSPOSE,
76a80a08SAart Bik      gpu::TransposeMode::NON_TRANSPOSE, spMatA, spMatB, spMatC, dnCType,
76a80a08SAart Bik      bufferSz1, buffer1,
76a80a08SAart Bik      gpu::SpGEMMWorkEstimationOrComputeKind::WORK_ESTIMATION);
76a80a08SAart Bik  token = work2->getResult(1);
76a80a08SAart Bik
76a80a08SAart Bik  // Compute step.
76a80a08SAart Bik  Operation *compute1 = rewriter.create<gpu::SpGEMMWorkEstimationOrComputeOp>(
76a80a08SAart Bik      loc, indexTp, tokenTp, token, desc, gpu::TransposeMode::NON_TRANSPOSE,
76a80a08SAart Bik      gpu::TransposeMode::NON_TRANSPOSE, spMatA, spMatB, spMatC, dnCType, zero,
76a80a08SAart Bik      valC, gpu::SpGEMMWorkEstimationOrComputeKind::COMPUTE);
76a80a08SAart Bik  Value bufferSz2 = compute1->getResult(0);
76a80a08SAart Bik  token = compute1->getResult(1);
76a80a08SAart Bik  auto buf2 = genAllocBuffer(rewriter, loc, bufferSz2, token);
76a80a08SAart Bik  Value buffer2 = buf2.getResult(0);
76a80a08SAart Bik  token = buf2.getAsyncToken();
76a80a08SAart Bik  Operation *compute2 = rewriter.create<gpu::SpGEMMWorkEstimationOrComputeOp>(
76a80a08SAart Bik      loc, indexTp, tokenTp, token, desc, gpu::TransposeMode::NON_TRANSPOSE,
76a80a08SAart Bik      gpu::TransposeMode::NON_TRANSPOSE, spMatA, spMatB, spMatC, dnCType,
76a80a08SAart Bik      bufferSz2, buffer2, gpu::SpGEMMWorkEstimationOrComputeKind::COMPUTE);
76a80a08SAart Bik  token = compute2->getResult(1);
76a80a08SAart Bik
76a80a08SAart Bik  // Get sizes.
289f7231SAart Bik  Operation *sizes = rewriter.create<gpu::SpMatGetSizeOp>(
76a80a08SAart Bik      loc, indexTp, indexTp, indexTp, tokenTp, token, spMatC);
76a80a08SAart Bik  Value nnz = sizes->getResult(2);
76a80a08SAart Bik  token = sizes->getResult(3);
76a80a08SAart Bik  auto a2 = genAllocBuffer(rewriter, loc, cTp.getCrdType(), nnz, token);
76a80a08SAart Bik  colC = a2.getResult(0);
76a80a08SAart Bik  token = a2.getAsyncToken();
76a80a08SAart Bik  auto a3 = genAllocBuffer(rewriter, loc, dnCType, nnz, token);
76a80a08SAart Bik  valC = a3.getResult(0);
76a80a08SAart Bik  token = a3.getAsyncToken();
76a80a08SAart Bik
76a80a08SAart Bik  // Update C with new pointers and copy final product back into C.
76a80a08SAart Bik  Operation *update = rewriter.create<gpu::SetCsrPointersOp>(
76a80a08SAart Bik      loc, tokenTp, token, spMatC, rowC, colC, valC);
76a80a08SAart Bik  token = update->getResult(0);
76a80a08SAart Bik  Operation *copy = rewriter.create<gpu::SpGEMMCopyOp>(
76a80a08SAart Bik      loc, tokenTp, token, desc, gpu::TransposeMode::NON_TRANSPOSE,
76a80a08SAart Bik      gpu::TransposeMode::NON_TRANSPOSE, spMatA, spMatB, spMatC, dnCType);
76a80a08SAart Bik  token = copy->getResult(0);
76a80a08SAart Bik
76a80a08SAart Bik  // Allocate buffers on host.
76a80a08SAart Bik  Value rowH = genHostBuffer(rewriter, loc, cTp.getPosType(), mplus1);
76a80a08SAart Bik  Value colH = genHostBuffer(rewriter, loc, cTp.getCrdType(), nnz);
76a80a08SAart Bik  Value valH = genHostBuffer(rewriter, loc, dnCType, nnz);
76a80a08SAart Bik
76a80a08SAart Bik  // Copy data back to host and free all the resoures.
76a80a08SAart Bik  token = rewriter.create<gpu::SpGEMMDestroyDescrOp>(loc, tokenTp, token, desc)
76a80a08SAart Bik              .getAsyncToken();
76a80a08SAart Bik  token = rewriter.create<gpu::DestroySpMatOp>(loc, tokenTp, token, spMatA)
76a80a08SAart Bik              .getAsyncToken();
76a80a08SAart Bik  token = rewriter.create<gpu::DestroySpMatOp>(loc, tokenTp, token, spMatB)
76a80a08SAart Bik              .getAsyncToken();
76a80a08SAart Bik  token = rewriter.create<gpu::DestroySpMatOp>(loc, tokenTp, token, spMatC)
76a80a08SAart Bik              .getAsyncToken();
76a80a08SAart Bik  token = genCopyMemRef(rewriter, loc, rowH, rowC, token);
76a80a08SAart Bik  token = genCopyMemRef(rewriter, loc, colH, colC, token);
76a80a08SAart Bik  token = genCopyMemRef(rewriter, loc, valH, valC, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, rowA, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, colA, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, valA, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, rowB, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, colB, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, valB, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, rowC, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, colC, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, valC, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, buffer1, token);
619a888dSAart Bik  token = genDeallocMemRef(rewriter, loc, buffer2, token);
76a80a08SAart Bik  tokens.push_back(token);
76a80a08SAart Bik  genBlockingWait(rewriter, loc, tokens);
76a80a08SAart Bik  tokens.clear();
76a80a08SAart Bik
76a80a08SAart Bik  // Done.
76a80a08SAart Bik  Value vt = rewriter.create<bufferization::ToTensorOp>(loc, valH);
76a80a08SAart Bik  Value rt = rewriter.create<bufferization::ToTensorOp>(loc, rowH);
76a80a08SAart Bik  Value ct = rewriter.create<bufferization::ToTensorOp>(loc, colH);
fc9f1d49SPeiming Liu  rewriter.replaceOpWithNewOp<AssembleOp>(op, c.getType(), ValueRange{rt, ct},
fc9f1d49SPeiming Liu                                          vt);
76a80a08SAart Bik  return success();
76a80a08SAart Bik}
76a80a08SAart Bik
76a80a08SAart Bik// Match and rewrite 2:4 SpMM kernel.
5ef44679SAart Bikstatic LogicalResult rewrite2To4SpMM(PatternRewriter &rewriter,
5ef44679SAart Bik                                     linalg::GenericOp op) {
e37fc3ccSK-Wu  Location loc = op.getLoc();
e37fc3ccSK-Wu  Value A = op.getOperand(0);
e37fc3ccSK-Wu  Value B = op.getOperand(1);
e37fc3ccSK-Wu  Value C = op.getOperand(2); // we have C = AB
e37fc3ccSK-Wu  SmallVector<Value> tokens;
e37fc3ccSK-Wu
41a07e66SAart Bik  // The cuSparselt API currently only allows pruning and compression
41a07e66SAart Bik  // to occur on the device. So we recognize the pattern
41a07e66SAart Bik  //    A' = convert A  ; dense to 2:4
41a07e66SAart Bik  //    C  = A'B        ; 2:4 matrix mult
41a07e66SAart Bik  // and then perform compression and matrix multiplication on device.
41a07e66SAart Bik  auto cnv = A.getDefiningOp<ConvertOp>();
41a07e66SAart Bik  assert(cnv);
41a07e66SAart Bik  A = cnv.getSource();
41a07e66SAart Bik
e37fc3ccSK-Wu  // All input should be dense tensors.
e37fc3ccSK-Wu  if (!isDenseTensor(A) || !isDenseTensor(B) || !isDenseTensor(C))
e37fc3ccSK-Wu    return failure();
e37fc3ccSK-Wu
5ef44679SAart Bik  // Start sparse kernel and copy data from host to device.
5ef44679SAart Bik  //   a : bufA -> matA
5ef44679SAart Bik  //   b : bufB -> matB
5ef44679SAart Bik  //   c : bufC -> matC
e37fc3ccSK-Wu  Value bufA = genTensorToMemref(rewriter, loc, A);
5ef44679SAart Bik  Value matA = genAllocCopy(rewriter, loc, bufA, tokens);
e37fc3ccSK-Wu  Value bufB = genTensorToMemref(rewriter, loc, B);
5ef44679SAart Bik  Value matB = genAllocCopy(rewriter, loc, bufB, tokens);
e37fc3ccSK-Wu  Value bufC = genTensorToMemref(rewriter, loc, C);
e37fc3ccSK-Wu  Value matC = genAllocCopy(rewriter, loc, bufC, tokens);
e37fc3ccSK-Wu  genBlockingWait(rewriter, loc, tokens);
e37fc3ccSK-Wu  tokens.clear();
76a80a08SAart Bik
76a80a08SAart Bik  // Create sparse environment and sparse matrix/dense vector handles.
e37fc3ccSK-Wu  Value szm = linalg::createOrFoldDimOp(rewriter, loc, matA, 0);
e37fc3ccSK-Wu  Value szk = linalg::createOrFoldDimOp(rewriter, loc, matB, 0);
e37fc3ccSK-Wu  Value szn = linalg::createOrFoldDimOp(rewriter, loc, matC, 1);
e37fc3ccSK-Wu  Type indexTp = rewriter.getIndexType();
e37fc3ccSK-Wu  Type dnTensorHandleTp = rewriter.getType<gpu::SparseDnTensorHandleType>();
e37fc3ccSK-Wu  Type spMatHandleTp = rewriter.getType<gpu::SparseSpMatHandleType>();
e37fc3ccSK-Wu  Type tokenTp = rewriter.getType<gpu::AsyncTokenType>();
e37fc3ccSK-Wu  Value token = genFirstWait(rewriter, loc);
e37fc3ccSK-Wu  Operation *spGenA = rewriter.create<gpu::Create2To4SpMatOp>(
1e491c42SKun Wu      loc, spMatHandleTp, tokenTp, token, szm, szk,
1e491c42SKun Wu      gpu::Prune2To4SpMatFlag::PRUNE_AND_CHECK, matA);
e37fc3ccSK-Wu  Value spMatA = spGenA->getResult(0);
e37fc3ccSK-Wu  token = spGenA->getResult(1);
e37fc3ccSK-Wu  auto dmatB = rewriter.create<gpu::CreateDnTensorOp>(
e37fc3ccSK-Wu      loc, dnTensorHandleTp, tokenTp, token, matB,
e37fc3ccSK-Wu      SmallVector<Value>{szk, szn});
e37fc3ccSK-Wu  Value dnB = dmatB.getResult(0);
e37fc3ccSK-Wu  token = dmatB.getAsyncToken();
e37fc3ccSK-Wu  auto dmatC = rewriter.create<gpu::CreateDnTensorOp>(
e37fc3ccSK-Wu      loc, dnTensorHandleTp, tokenTp, token, matC,
e37fc3ccSK-Wu      SmallVector<Value>{szm, szn});
e37fc3ccSK-Wu  Value dnC = dmatC.getResult(0);
e37fc3ccSK-Wu  token = dmatC.getAsyncToken();
e37fc3ccSK-Wu  auto dmatCType = llvm::cast<ShapedType>(matC.getType()).getElementType();
e37fc3ccSK-Wu
e37fc3ccSK-Wu  // Precompute buffersize for SpMM.
e37fc3ccSK-Wu  SmallVector<Type> bufferTypes_{indexTp, indexTp, indexTp};
e37fc3ccSK-Wu  TypeRange bufferTypes(bufferTypes_);
e37fc3ccSK-Wu  auto bufferComp = rewriter.create<gpu::SpMMBufferSizeOp>(
e37fc3ccSK-Wu      loc, bufferTypes, tokenTp, token, gpu::TransposeMode::NON_TRANSPOSE,
e37fc3ccSK-Wu      gpu::TransposeMode::NON_TRANSPOSE, spMatA, dnB, dnC,
e37fc3ccSK-Wu      /*computeType=*/dmatCType);
e37fc3ccSK-Wu  token = bufferComp.getAsyncToken();
76a80a08SAart Bik
5ef44679SAart Bik  // Allocate buffers on host.
5ef44679SAart Bik  Value bufferSz1 = bufferComp.getResult(0);
5ef44679SAart Bik  auto buf1 = genAllocBuffer(rewriter, loc, bufferSz1, token);
5ef44679SAart Bik  Value buffer1 = buf1.getResult(0);
5ef44679SAart Bik  token = buf1.getAsyncToken();
e37fc3ccSK-Wu  Value bufferSz2 = bufferComp.getResult(1);
e37fc3ccSK-Wu  auto buf2 = genAllocBuffer(rewriter, loc, bufferSz2, token);
e37fc3ccSK-Wu  Value buffer2 = buf2.getResult(0);
e37fc3ccSK-Wu  token = buf2.getAsyncToken();
e37fc3ccSK-Wu  Value bufferSz3 = bufferComp.getResult(2);
e37fc3ccSK-Wu  auto buf3 = genAllocBuffer(rewriter, loc, bufferSz3, token);
e37fc3ccSK-Wu  Value buffer3 = buf3.getResult(0);
e37fc3ccSK-Wu  token = buf3.getAsyncToken();
e37fc3ccSK-Wu
e37fc3ccSK-Wu  // Perform the SpMM.
5ef44679SAart Bik  auto dnCType = llvm::cast<ShapedType>(matC.getType()).getElementType();
e37fc3ccSK-Wu  auto spmmComp = rewriter.create<gpu::SpMMOp>(
e37fc3ccSK-Wu      loc, tokenTp, token, spMatA, dnB, dnC, /*computeType=*/dnCType,
5ef44679SAart Bik      SmallVector<Value>{buffer1, buffer2, buffer3});
e37fc3ccSK-Wu  token = spmmComp.getAsyncToken();
e37fc3ccSK-Wu
e37fc3ccSK-Wu  // Copy data back to host and free all the resources.
e37fc3ccSK-Wu  token = rewriter.create<gpu::DestroySpMatOp>(loc, tokenTp, token, spMatA)
e37fc3ccSK-Wu              .getAsyncToken();
e37fc3ccSK-Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnB)
e37fc3ccSK-Wu              .getAsyncToken();
e37fc3ccSK-Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnC)
e37fc3ccSK-Wu              .getAsyncToken();
e37fc3ccSK-Wu  SmallVector<Value> newDynamicSizes;
5ef44679SAart Bik  token = genDeallocMemRef(rewriter, loc, buffer1, token);
e37fc3ccSK-Wu  token = genDeallocMemRef(rewriter, loc, buffer2, token);
e37fc3ccSK-Wu  token = genDeallocMemRef(rewriter, loc, buffer3, token);
e37fc3ccSK-Wu  token = genDeallocMemRef(rewriter, loc, matA, token);
e37fc3ccSK-Wu  token = genDeallocMemRef(rewriter, loc, matB, token);
e37fc3ccSK-Wu  token = genCopyMemRef(rewriter, loc, bufC, matC, token);
e37fc3ccSK-Wu  token = genDeallocMemRef(rewriter, loc, matC, token);
e37fc3ccSK-Wu  tokens.push_back(token);
e37fc3ccSK-Wu  genBlockingWait(rewriter, loc, tokens);
76a80a08SAart Bik  tokens.clear();
76a80a08SAart Bik
76a80a08SAart Bik  // Done.
e37fc3ccSK-Wu  rewriter.replaceOpWithNewOp<bufferization::ToTensorOp>(op, bufC);
e37fc3ccSK-Wu  return success();
e37fc3ccSK-Wu}
e37fc3ccSK-Wu
9167dd46SKun Wu/// Match and rewrite SDDMM kernel.
5ef44679SAart Bikstatic LogicalResult rewriteSDDMM(PatternRewriter &rewriter,
5ef44679SAart Bik                                  linalg::GenericOp op, bool enableRT) {
9167dd46SKun Wu  Location loc = op.getLoc();
9167dd46SKun Wu  Value a = op.getOperand(0);
9167dd46SKun Wu  Value b = op.getOperand(1);
9167dd46SKun Wu  Value c = op.getOperand(2);
9167dd46SKun Wu  SmallVector<Value> tokens;
9167dd46SKun Wu
3231a365SAart Bik  // Only admissible sparse matrix format (no COO/CSC) and dense matrices.
9167dd46SKun Wu  SparseTensorType aTp = getSparseTensorType(a);
9167dd46SKun Wu  SparseTensorType bTp = getSparseTensorType(b);
9167dd46SKun Wu  SparseTensorType cTp = getSparseTensorType(c);
3231a365SAart Bik  auto format = getCuSparseFormat(cTp, bTp, aTp, enableRT, /*isMatVec=*/false);
3231a365SAart Bik  if (format == CuSparseFormat::kNone || format == CuSparseFormat::kCOO ||
3231a365SAart Bik      format == CuSparseFormat::kCSC)
9167dd46SKun Wu    return failure();
9167dd46SKun Wu
9167dd46SKun Wu  // The SDDMM does the in-place operation.
9167dd46SKun Wu  // Start sparse kernel and copy data from host to device.
9167dd46SKun Wu  //   a : bufA           -> matA
5ef44679SAart Bik  //   b : bufB           -> matB
9167dd46SKun Wu  //   c : memR/memC/memV -> rowC,colC,valC
9167dd46SKun Wu  Value nseC = rewriter.create<NumberOfEntriesOp>(loc, c);
9167dd46SKun Wu  Value szm = linalg::createOrFoldDimOp(rewriter, loc, a, 0);
9167dd46SKun Wu  Value szk = linalg::createOrFoldDimOp(rewriter, loc, a, 1);
9167dd46SKun Wu  Value szn = linalg::createOrFoldDimOp(rewriter, loc, b, 1);
9167dd46SKun Wu  Value bufA = genTensorToMemref(rewriter, loc, a);
5ef44679SAart Bik  Value matA = genAllocCopy(rewriter, loc, bufA, tokens);
9167dd46SKun Wu  Value bufB = genTensorToMemref(rewriter, loc, b);
5ef44679SAart Bik  Value matB = genAllocCopy(rewriter, loc, bufB, tokens);
3231a365SAart Bik  Value memR = genFirstPosOrCrds(rewriter, loc, c, format, enableRT);
5ef44679SAart Bik  Value memC = genSecondCrds(rewriter, loc, c, format, enableRT); // or empty
1a0986f0SPeiming Liu  Value memV = rewriter.create<ToValuesOp>(loc, c);
9167dd46SKun Wu  Value rowC = genAllocCopy(rewriter, loc, memR, tokens);
9167dd46SKun Wu  Value colC = memC ? genAllocCopy(rewriter, loc, memC, tokens) : Value();
9167dd46SKun Wu  Value valC = genAllocCopy(rewriter, loc, memV, tokens);
9167dd46SKun Wu  genBlockingWait(rewriter, loc, tokens);
9167dd46SKun Wu  tokens.clear();
9167dd46SKun Wu
9167dd46SKun Wu  // Create sparse environment and sparse matrix/dense matrix handles.
9167dd46SKun Wu  Type indexTp = rewriter.getIndexType();
9167dd46SKun Wu  Type dnMatHandleTp = rewriter.getType<gpu::SparseDnTensorHandleType>();
9167dd46SKun Wu  Type spMatHandleTp = rewriter.getType<gpu::SparseSpMatHandleType>();
9167dd46SKun Wu  Type tokenTp = rewriter.getType<gpu::AsyncTokenType>();
9167dd46SKun Wu  Value token = genFirstWait(rewriter, loc);
9167dd46SKun Wu  auto dmatA = rewriter.create<gpu::CreateDnTensorOp>(
be2dd22bSKun Wu      loc, dnMatHandleTp, tokenTp, token, matA, SmallVector<Value>{szm, szk});
9167dd46SKun Wu  Value dnA = dmatA.getResult(0);
9167dd46SKun Wu  token = dmatA.getAsyncToken();
9167dd46SKun Wu  auto dmatB = rewriter.create<gpu::CreateDnTensorOp>(
be2dd22bSKun Wu      loc, dnMatHandleTp, tokenTp, token, matB, SmallVector<Value>{szk, szn});
9167dd46SKun Wu  Value dnB = dmatB.getResult(0);
9167dd46SKun Wu  token = dmatB.getAsyncToken();
9167dd46SKun Wu  Operation *spGenC =
3d89c088SAart Bik      genSpMat(rewriter, loc, cTp, spMatHandleTp, tokenTp, token, szm, szn,
3d89c088SAart Bik               nseC, rowC, colC, valC, format, enableRT);
9167dd46SKun Wu  Value spMatC = spGenC->getResult(0);
9167dd46SKun Wu  token = spGenC->getResult(1);
9167dd46SKun Wu  auto dnCType = llvm::cast<ShapedType>(c.getType()).getElementType();
76a80a08SAart Bik
9167dd46SKun Wu  // Precompute buffersize for SDDMM.
9167dd46SKun Wu  auto bufferComp = rewriter.create<gpu::SDDMMBufferSizeOp>(
be2dd22bSKun Wu      loc, indexTp, tokenTp, token, dnA, dnB, spMatC, dnCType);
9167dd46SKun Wu  Value bufferSz = bufferComp.getResult(0);
9167dd46SKun Wu  token = bufferComp.getAsyncToken();
9167dd46SKun Wu  auto buf = genAllocBuffer(rewriter, loc, bufferSz, token);
9167dd46SKun Wu  Value buffer = buf.getResult(0);
9167dd46SKun Wu  token = buf.getAsyncToken();
9167dd46SKun Wu
9167dd46SKun Wu  // Perform the SDDMM.
be2dd22bSKun Wu  auto sddmmComp = rewriter.create<gpu::SDDMMOp>(loc, tokenTp, token, dnA, dnB,
be2dd22bSKun Wu                                                 spMatC, dnCType, buffer);
9167dd46SKun Wu  token = sddmmComp.getAsyncToken();
9167dd46SKun Wu
9167dd46SKun Wu  // Copy data back to host and free all the resoures.
9167dd46SKun Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnA)
9167dd46SKun Wu              .getAsyncToken();
9167dd46SKun Wu  token = rewriter.create<gpu::DestroyDnTensorOp>(loc, tokenTp, token, dnB)
9167dd46SKun Wu              .getAsyncToken();
9167dd46SKun Wu  token = rewriter.create<gpu::DestroySpMatOp>(loc, tokenTp, token, spMatC)
9167dd46SKun Wu              .getAsyncToken();
9167dd46SKun Wu  token = genDeallocMemRef(rewriter, loc, buffer, token);
9167dd46SKun Wu  token = genDeallocMemRef(rewriter, loc, matA, token);
9167dd46SKun Wu  token = genDeallocMemRef(rewriter, loc, matB, token);
9167dd46SKun Wu  token = genDeallocMemRef(rewriter, loc, rowC, token);
9167dd46SKun Wu  if (colC)
9167dd46SKun Wu    token = genDeallocMemRef(rewriter, loc, colC, token);
9167dd46SKun Wu  token = genCopyMemRef(rewriter, loc, memV, valC, token);
9167dd46SKun Wu  token = genDeallocMemRef(rewriter, loc, valC, token);
9167dd46SKun Wu  tokens.push_back(token);
9167dd46SKun Wu  genBlockingWait(rewriter, loc, tokens);
76a80a08SAart Bik  tokens.clear();
9167dd46SKun Wu
f14c8eb5SAart Bik  // Done.
9167dd46SKun Wu  rewriter.replaceOpWithNewOp<sparse_tensor::LoadOp>(op, c);
9167dd46SKun Wu  return success();
9167dd46SKun Wu}
9167dd46SKun Wu
ee42e236SAart Bik//===----------------------------------------------------------------------===//
ee42e236SAart Bik// Rewriting rules for direct code generation.
ee42e236SAart Bik//===----------------------------------------------------------------------===//
ee42e236SAart Bik
ee42e236SAart Bik/// Proof-of-concept rewriter. This rule generates a GPU implementation
c43e6274STim Harvey/// for each outermost forall loop generated by the sparsifier.
76a80a08SAart Bik/// TODO: right now works with parallelization-strategy=dense-outer-loop
86888e42SAart Bik///       but give this its own flags in the future
19466ebcSAart Bikstruct ForallRewriter : public OpRewritePattern<scf::ParallelOp> {
19466ebcSAart Bik  using OpRewritePattern<scf::ParallelOp>::OpRewritePattern;
19466ebcSAart Bik
19466ebcSAart Bik  ForallRewriter(MLIRContext *context, unsigned nT)
19466ebcSAart Bik      : OpRewritePattern(context), numThreads(nT){};
19466ebcSAart Bik
19466ebcSAart Bik  LogicalResult matchAndRewrite(scf::ParallelOp forallOp,
19466ebcSAart Bik                                PatternRewriter &rewriter) const override {
19466ebcSAart Bik    // Reject inadmissible loop form.
c43e6274STim Harvey    // Essentially only accept a loop, generated by the sparsifier,
19466ebcSAart Bik    // of the form
19466ebcSAart Bik    //   forall (i = 0; i < N; i++)
19466ebcSAart Bik    // so that cyclic scheduling over the threads is easy.
19466ebcSAart Bik    if (!forallOp->hasAttr(LoopEmitter::getLoopEmitterLoopAttrName()) ||
19466ebcSAart Bik        forallOp.getNumReductions() != 0 || forallOp.getNumLoops() != 1 ||
19466ebcSAart Bik        !matchPattern(forallOp.getLowerBound()[0], m_Zero()) ||
19466ebcSAart Bik        !matchPattern(forallOp.getStep()[0], m_One()))
19466ebcSAart Bik      return failure();
19466ebcSAart Bik    // Collect every value that is computed outside the parallel loop.
19466ebcSAart Bik    SetVector<Value> invariants; // stable iteration!
19466ebcSAart Bik    forallOp->walk([&](Operation *op) {
19466ebcSAart Bik      // Collect all values of admissible ops.
19466ebcSAart Bik      for (OpOperand &o : op->getOpOperands()) {
19466ebcSAart Bik        Value val = o.get();
19466ebcSAart Bik        Block *block;
5550c821STres Popp        if (auto arg = dyn_cast<BlockArgument>(val))
19466ebcSAart Bik          block = arg.getOwner();
19466ebcSAart Bik        else
19466ebcSAart Bik          block = val.getDefiningOp()->getBlock();
ea979b24SMatthias Springer        if (!forallOp.getRegion().findAncestorBlockInRegion(*block))
19466ebcSAart Bik          invariants.insert(val);
19466ebcSAart Bik      }
19466ebcSAart Bik    });
19466ebcSAart Bik    // Outline the outside values as proper parameters. Fail when sharing
19466ebcSAart Bik    // value between host and device is not straightforward.
19466ebcSAart Bik    SmallVector<Value> constants;
19466ebcSAart Bik    SmallVector<Value> scalars;
19466ebcSAart Bik    SmallVector<Value> buffers;
19466ebcSAart Bik    for (Value val : invariants) {
19466ebcSAart Bik      Type tp = val.getType();
19466ebcSAart Bik      if (val.getDefiningOp<arith::ConstantOp>())
19466ebcSAart Bik        constants.push_back(val);
5550c821STres Popp      else if (isa<FloatType>(tp) || tp.isIntOrIndex())
19466ebcSAart Bik        scalars.push_back(val);
19466ebcSAart Bik      else if (isa<MemRefType>(tp))
19466ebcSAart Bik        buffers.push_back(val);
19466ebcSAart Bik      else
19466ebcSAart Bik        return failure(); // don't know how to share
19466ebcSAart Bik    }
86888e42SAart Bik    // Pass outlined non-constant values.
86888e42SAart Bik    // TODO: Experiment with `useHostRegistrationForOut` to see if we want to
86888e42SAart Bik    //       keep the feature at all (either through a heuristic or compiler
86888e42SAart Bik    //       option for gpu codegen).
19466ebcSAart Bik    Location loc = forallOp->getLoc();
19466ebcSAart Bik    SmallVector<Value> args;
86888e42SAart Bik    SmallVector<Value> tokens;
86888e42SAart Bik    Value out = genParametersIn(rewriter, loc, scalars, buffers, args, tokens,
86888e42SAart Bik                                /*useHostRegistrationForOut=*/false);
19466ebcSAart Bik    // Set up GPU module and construct GPU function.
86888e42SAart Bik    auto saveIp = rewriter.saveInsertionPoint();
19466ebcSAart Bik    ModuleOp topModule = forallOp->getParentOfType<ModuleOp>();
4889214aSAart Bik    auto gpuModule = genGPUModule(rewriter, topModule);
4889214aSAart Bik    auto gpuFunc = genGPUFunc(rewriter, gpuModule, args);
19466ebcSAart Bik    genGPUCode(rewriter, gpuFunc, forallOp, constants, scalars, buffers);
86888e42SAart Bik    // Generate code that launches the kernel asynchronously, blocking on all
86888e42SAart Bik    // opens tokens and yielding a new token for the output.
86888e42SAart Bik    // TODO: Passing in tokens to launch up does not seem to be properly lowered
86888e42SAart Bik    //       by cubin yet, hence the current blocking wait.
19466ebcSAart Bik    rewriter.restoreInsertionPoint(saveIp);
86888e42SAart Bik    genBlockingWait(rewriter, loc, tokens);
86888e42SAart Bik    tokens.clear();
86888e42SAart Bik    Value kernelToken =
86888e42SAart Bik        genLaunchGPUFunc(rewriter, gpuFunc, args, tokens, numThreads);
86888e42SAart Bik    // Finalize the outlined arguments.
86888e42SAart Bik    genParametersOut(rewriter, loc, out, kernelToken, scalars, buffers, args,
86888e42SAart Bik                     tokens);
86888e42SAart Bik    genBlockingWait(rewriter, loc, tokens);
19466ebcSAart Bik    rewriter.eraseOp(forallOp);
19466ebcSAart Bik    return success();
19466ebcSAart Bik  }
19466ebcSAart Bik
19466ebcSAart Bikprivate:
19466ebcSAart Bik  unsigned numThreads;
19466ebcSAart Bik};
19466ebcSAart Bik
ee42e236SAart Bik//===----------------------------------------------------------------------===//
ee42e236SAart Bik// Rewriting rules for library recognition and code generation.
ee42e236SAart Bik//===----------------------------------------------------------------------===//
ee42e236SAart Bik
ee42e236SAart Bik/// Proof-of-concept rewriter. This rule recognizes certain math kernels
b75d6a40SAart Bik/// and replaces these with corresponding calls into a sparse library.
ee42e236SAart Bikstruct LinalgOpRewriter : public OpRewritePattern<linalg::GenericOp> {
ee42e236SAart Bik  using OpRewritePattern<linalg::GenericOp>::OpRewritePattern;
ee42e236SAart Bik
5ef44679SAart Bik  LinalgOpRewriter(MLIRContext *context, bool rt)
5ef44679SAart Bik      : OpRewritePattern(context), enableRT(rt) {}
ee42e236SAart Bik
ee42e236SAart Bik  LogicalResult matchAndRewrite(linalg::GenericOp op,
ee42e236SAart Bik                                PatternRewriter &rewriter) const override {
ee42e236SAart Bik    if (op.getNumDpsInits() != 1)
ee42e236SAart Bik      return failure(); // reject multi-output
ee42e236SAart Bik
ee42e236SAart Bik    const unsigned numLoops = op.getNumLoops();
ee42e236SAart Bik    const unsigned numTensors = op->getNumOperands();
ee42e236SAart Bik    const auto iteratorTypes = op.getIteratorTypesArray();
ee42e236SAart Bik    SmallVector<AffineMap, 4> maps = op.getIndexingMapsArray();
ee42e236SAart Bik
ee42e236SAart Bik    using MapList = ArrayRef<ArrayRef<AffineExpr>>;
fe8a62c4SUday Bondhugula    auto infer = [&](MapList m) {
fe8a62c4SUday Bondhugula      return AffineMap::inferFromExprList(m, op.getContext());
fe8a62c4SUday Bondhugula    };
ee42e236SAart Bik    AffineExpr i, j, k;
ee42e236SAart Bik    bindDims(getContext(), i, j, k);
ee42e236SAart Bik
*aa295216SJay Foad    // TODO: more robust patterns, transposed versions, more kernels,
76a80a08SAart Bik    //       identify alpha and beta and pass them to the CUDA calls.
ee42e236SAart Bik
ee42e236SAart Bik    // Recognize a SpMV kernel.
ee42e236SAart Bik    if (numLoops == 2 && numTensors == 3 &&
ee42e236SAart Bik        linalg::isParallelIterator(iteratorTypes[0]) &&
ee42e236SAart Bik        linalg::isReductionIterator(iteratorTypes[1]) &&
ee42e236SAart Bik        maps == infer({{i, j}, {j}, {i}}) && matchSumOfMultOfArgs(op)) {
5ef44679SAart Bik      return rewriteSpMV(rewriter, op, enableRT);
ee42e236SAart Bik    }
ee42e236SAart Bik
76a80a08SAart Bik    // Recognize a SpGEMM, 2:4-SpMM, or SpMM kernel.
ee42e236SAart Bik    if (numLoops == 3 && numTensors == 3 &&
ee42e236SAart Bik        linalg::isParallelIterator(iteratorTypes[0]) &&
ee42e236SAart Bik        linalg::isParallelIterator(iteratorTypes[1]) &&
ee42e236SAart Bik        linalg::isReductionIterator(iteratorTypes[2]) &&
ee42e236SAart Bik        maps == infer({{i, k}, {k, j}, {i, j}}) && matchSumOfMultOfArgs(op)) {
76a80a08SAart Bik      if (!isDenseTensor(op.getOperand(0)) && !isDenseTensor(op.getOperand(1)))
5ef44679SAart Bik        return rewriteSpGEMM(rewriter, op, enableRT);
41a07e66SAart Bik      if (isConversionInto24(op.getOperand(0)))
5ef44679SAart Bik        return rewrite2To4SpMM(rewriter, op);
5ef44679SAart Bik      return rewriteSpMM(rewriter, op, enableRT);
ee42e236SAart Bik    }
ee42e236SAart Bik
9167dd46SKun Wu    // Recognize a SDDMM kernel.
9167dd46SKun Wu    if (numLoops == 3 && numTensors == 3 &&
9167dd46SKun Wu        linalg::isParallelIterator(iteratorTypes[0]) &&
9167dd46SKun Wu        linalg::isParallelIterator(iteratorTypes[1]) &&
9167dd46SKun Wu        linalg::isReductionIterator(iteratorTypes[2]) &&
9167dd46SKun Wu        maps == infer({{i, k}, {k, j}, {i, j}}) &&
9167dd46SKun Wu        matchSumReductionOfMulUnary(op)) {
5ef44679SAart Bik      return rewriteSDDMM(rewriter, op, enableRT);
9167dd46SKun Wu    }
9167dd46SKun Wu
ee42e236SAart Bik    return failure();
ee42e236SAart Bik  }
ee42e236SAart Bik
ee42e236SAart Bikprivate:
ee42e236SAart Bik  bool enableRT;
ee42e236SAart Bik};
ee42e236SAart Bik
19466ebcSAart Bik} // namespace
19466ebcSAart Bik
19466ebcSAart Bik//===----------------------------------------------------------------------===//
19466ebcSAart Bik// Public method for populating GPU rewriting rules.
ee42e236SAart Bik//
ee42e236SAart Bik// Currently two set of rewriting rules are made available. The first set
ee42e236SAart Bik// implements direct code generation, currently by means of convering the
ee42e236SAart Bik// outermost paralell loop into GPU threads. The second set implements
ee42e236SAart Bik// libary recognition of a set of sparse operations. Eventually, the right
ee42e236SAart Bik// combination of these two approaches has to be found.
19466ebcSAart Bik//===----------------------------------------------------------------------===//
19466ebcSAart Bik
19466ebcSAart Bikvoid mlir::populateSparseGPUCodegenPatterns(RewritePatternSet &patterns,
19466ebcSAart Bik                                            unsigned numThreads) {
19466ebcSAart Bik  patterns.add<ForallRewriter>(patterns.getContext(), numThreads);
19466ebcSAart Bik}
ee42e236SAart Bik
5ef44679SAart Bikvoid mlir::populateSparseGPULibgenPatterns(RewritePatternSet &patterns,
5ef44679SAart Bik                                           bool enableRT) {
5ef44679SAart Bik  patterns.add<LinalgOpRewriter>(patterns.getContext(), enableRT);
ee42e236SAart Bik}