python/tools/matmulBuilder.py

d95e6d02SGuray Ozenimport numpy as np
d95e6d02SGuray Ozenfrom mlir import ir
d95e6d02SGuray Ozenfrom mlir.dialects import arith
d95e6d02SGuray Ozenfrom mlir.dialects import func
d95e6d02SGuray Ozenfrom mlir.dialects import gpu
d95e6d02SGuray Ozenfrom mlir.dialects import memref
d95e6d02SGuray Ozenfrom mlir.dialects import nvgpu
d95e6d02SGuray Ozenfrom mlir.dialects import nvvm
d95e6d02SGuray Ozenfrom mlir.dialects import llvm
d95e6d02SGuray Ozenfrom mlir.dialects import builtin
d95e6d02SGuray Ozenfrom mlir.dialects import scf
d95e6d02SGuray Ozenfrom mlir.dialects import vector
d95e6d02SGuray Ozenfrom mlir.extras import types as T
d95e6d02SGuray Ozen
d95e6d02SGuray OzenTMA_LAST_DIM_F16 = 64  # 128B flaot16
d95e6d02SGuray OzenWARP_SIZE = 32
d95e6d02SGuray OzenWARP_GROUP_SIZE = WARP_SIZE * 4
d95e6d02SGuray Ozen
d95e6d02SGuray OzenPRODUCER_REGISTER_SIZE = 40
d95e6d02SGuray OzenCONSUMER_REGISTER_SIZE = 232
d95e6d02SGuray Ozen
d95e6d02SGuray OzenPRODUCER_PRIMARY_THREAD = 128
d95e6d02SGuray OzenCONSUMER_PRIMARY_THREAD = 0
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen# C++ uses this value to understand whether it's dynamic or not.
d95e6d02SGuray OzenMLIR_DYNAMIC = -9223372036854775808
d95e6d02SGuray Ozen
d95e6d02SGuray OzenDEBUG = False
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen
c82f45f9SGuray Ozenclass TmaDescriptorBuilder:
c82f45f9SGuray Ozen    """A class that builds a TMA descriptor."""
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen    def __init__(self, swizzle, l2promo, oob, interleave, tma_box_shape, memref_ty):
c82f45f9SGuray Ozen        self.swizzle = swizzle  # mlir.nvgpu.TensorMapSwizzleKind
c82f45f9SGuray Ozen        self.l2promo = l2promo  # mlir.nvgpu.TensorMapL2PromoKind
c82f45f9SGuray Ozen        self.oob = oob  # mlir.nvgpu.TensorMapOOBKind
c82f45f9SGuray Ozen        self.interleave = interleave  # mlir.nvgpu.TensorMapInterleaveKind
c82f45f9SGuray Ozen        self.tma_box_shape = tma_box_shape
c82f45f9SGuray Ozen        self.memref_ty = memref_ty  # MemRefType
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen    @property
c82f45f9SGuray Ozen    def tensormap_descriptor_ty(self):
c82f45f9SGuray Ozen        """Returns a tensormap descriptor type."""
c82f45f9SGuray Ozen        tensorMemrefType = ir.MemRefType.get(
c82f45f9SGuray Ozen            self.tma_box_shape,
c82f45f9SGuray Ozen            self.memref_ty.element_type,
c82f45f9SGuray Ozen            memory_space=ir.Attribute.parse("3"),
c82f45f9SGuray Ozen        )
c82f45f9SGuray Ozen        return nvgpu.TensorMapDescriptorType.get(
c82f45f9SGuray Ozen            tensorMemrefType,
c82f45f9SGuray Ozen            self.swizzle,
c82f45f9SGuray Ozen            self.l2promo,
c82f45f9SGuray Ozen            self.oob,
c82f45f9SGuray Ozen            self.interleave,
c82f45f9SGuray Ozen        )
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen    def tma_descriptor_op(self, device_ptr):
c82f45f9SGuray Ozen        """Returns a tensormap descriptor op."""
c82f45f9SGuray Ozen        tma_descriptor_ty = self.tensormap_descriptor_ty
c82f45f9SGuray Ozen        device_unranked_memref = memref.CastOp(
c82f45f9SGuray Ozen            ir.UnrankedMemRefType.get(
c82f45f9SGuray Ozen                self.memref_ty.element_type, self.memref_ty.memory_space
c82f45f9SGuray Ozen            ),
c82f45f9SGuray Ozen            device_ptr,
c82f45f9SGuray Ozen        )
c82f45f9SGuray Ozen        tma_descriptor_op = nvgpu.TmaCreateDescriptorOp(
c82f45f9SGuray Ozen            tma_descriptor_ty, device_unranked_memref, map(c, self.tma_box_shape)
c82f45f9SGuray Ozen        )
c82f45f9SGuray Ozen        return tma_descriptor_op.result
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen
d95e6d02SGuray Ozendef debug_print(fmt, *args, predicate=None, threadNumber=-1, forcePrint=False):
d95e6d02SGuray Ozen    if not DEBUG and not forcePrint:
d95e6d02SGuray Ozen        return
d95e6d02SGuray Ozen    type_formats = []
d95e6d02SGuray Ozen    for arg in args:
d95e6d02SGuray Ozen        ty_format = None
d95e6d02SGuray Ozen        if ir.IndexType.isinstance(arg.type):
d95e6d02SGuray Ozen            ty_format = "%llu"
d95e6d02SGuray Ozen        if ir.IntegerType.isinstance(arg.type):
d95e6d02SGuray Ozen            width = ir.IntegerType(arg.type).width
d95e6d02SGuray Ozen            if width == 64:
d95e6d02SGuray Ozen                ty_format = "%llu"
d95e6d02SGuray Ozen            elif width == 32:
d95e6d02SGuray Ozen                ty_format = "%d"
d95e6d02SGuray Ozen            elif width == 1:
d95e6d02SGuray Ozen                ty_format = "%i"
d95e6d02SGuray Ozen        if ir.F32Type.isinstance(arg.type):
d95e6d02SGuray Ozen            ty_format = "%f"
d95e6d02SGuray Ozen        if ty_format is None:
d95e6d02SGuray Ozen            raise NotImplementedError(arg.type)
d95e6d02SGuray Ozen        type_formats.append(ty_format)
d95e6d02SGuray Ozen    if threadNumber != -1:
d95e6d02SGuray Ozen        tidx = gpu.thread_id(gpu.Dimension.x)
d95e6d02SGuray Ozen        predicate = arith.cmpi(arith.CmpIPredicate.eq, tidx, c(threadNumber))
d95e6d02SGuray Ozen        scf.yield_([])
d95e6d02SGuray Ozen    if_op = scf.IfOp(predicate)
d95e6d02SGuray Ozen    with ir.InsertionPoint(if_op.then_block):
d95e6d02SGuray Ozen        gpu.printf(fmt.format(*type_formats) + "\n", args)
d95e6d02SGuray Ozen        scf.yield_([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen
d95e6d02SGuray Ozendef get_type_size(ty):
d95e6d02SGuray Ozen    if ir.FloatType.isinstance(ty):
d95e6d02SGuray Ozen        return ir.FloatType(ty).width // 8
d95e6d02SGuray Ozen    if ir.IntegerType.isinstance(ty):
d95e6d02SGuray Ozen        return ir.IntegerType(ty).width // 8
d95e6d02SGuray Ozen    raise NotImplementedError(ty)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen
d95e6d02SGuray Ozendef get_mlir_ty(dtype):
d95e6d02SGuray Ozen    if dtype == np.float16:
d95e6d02SGuray Ozen        return T.f16()
d95e6d02SGuray Ozen    if dtype == np.float32:
d95e6d02SGuray Ozen        return T.f32()
d95e6d02SGuray Ozen    if dtype == np.float64:
d95e6d02SGuray Ozen        return T.f64()
d95e6d02SGuray Ozen    if dtype == np.int32:
d95e6d02SGuray Ozen        return T.i32()
d95e6d02SGuray Ozen    if dtype == np.int64:
d95e6d02SGuray Ozen        return T.i64()
d95e6d02SGuray Ozen    raise NotImplementedError(dtype)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen
d95e6d02SGuray Ozendef c(value, ty=None):
d95e6d02SGuray Ozen    ty = T.index() if ty is None else ty
d95e6d02SGuray Ozen    return arith.constant(ty, value)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen
d95e6d02SGuray Ozendef make_kernel_name(
d95e6d02SGuray Ozen    input_type=np.float16,
d95e6d02SGuray Ozen    output_type=np.float32,
d95e6d02SGuray Ozen    M=4096,
d95e6d02SGuray Ozen    N=4096,
d95e6d02SGuray Ozen    K=4096,
d95e6d02SGuray Ozen    BLOCK_M=128,
d95e6d02SGuray Ozen    BLOCK_N=128,
d95e6d02SGuray Ozen    BLOCK_K=128,
d95e6d02SGuray Ozen    num_stages=3,
d95e6d02SGuray Ozen    use_warp_specialization=False,
d95e6d02SGuray Ozen):
d95e6d02SGuray Ozen    kernelName = "warpspecialized" if use_warp_specialization else "multistage"
d95e6d02SGuray Ozen    return (
d95e6d02SGuray Ozen        kernelName
d95e6d02SGuray Ozen        + "_"
d95e6d02SGuray Ozen        + str(M)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(N)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(K)
d95e6d02SGuray Ozen        + "_"
d95e6d02SGuray Ozen        + str(BLOCK_M)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_N)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_K)
d95e6d02SGuray Ozen        + "_"
d95e6d02SGuray Ozen        + str(num_stages)
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen
d95e6d02SGuray Ozendef generate_matmul_ws(
d95e6d02SGuray Ozen    input_type=np.float16,
d95e6d02SGuray Ozen    output_type=np.float32,
d95e6d02SGuray Ozen    M=4096,
d95e6d02SGuray Ozen    N=4096,
d95e6d02SGuray Ozen    K=4096,
d95e6d02SGuray Ozen    BLOCK_M=128,
d95e6d02SGuray Ozen    BLOCK_N=128,
d95e6d02SGuray Ozen    BLOCK_K=128,
d95e6d02SGuray Ozen    num_stages=3,
d95e6d02SGuray Ozen):
d95e6d02SGuray Ozen    # Limitaitons for now
d95e6d02SGuray Ozen    assert input_type == np.float16
d95e6d02SGuray Ozen    assert output_type == np.float32
d95e6d02SGuray Ozen    assert BLOCK_M == 128
d95e6d02SGuray Ozen    assert BLOCK_N == 128
d95e6d02SGuray Ozen    assert BLOCK_K == 64
d95e6d02SGuray Ozen    assert M % BLOCK_M == 0
d95e6d02SGuray Ozen    assert N % BLOCK_N == 0
d95e6d02SGuray Ozen    assert K % BLOCK_K == 0
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen    module = ir.Module.create()
f8ff9094SGuray Ozen    token_ty = gpu.AsyncTokenType.get()
d95e6d02SGuray Ozen    a_elem_ty = get_mlir_ty(input_type)
d95e6d02SGuray Ozen    b_elem_ty = get_mlir_ty(input_type)
d95e6d02SGuray Ozen    c_elem_ty = get_mlir_ty(output_type)
d95e6d02SGuray Ozen    a_ty = ir.MemRefType.get([M, K], a_elem_ty)
d95e6d02SGuray Ozen    b_ty = ir.MemRefType.get((K, N), b_elem_ty)
d95e6d02SGuray Ozen    c_ty = ir.MemRefType.get((M, N), c_elem_ty)
d95e6d02SGuray Ozen    a_tile_shape = a_tma_shape = (BLOCK_M, TMA_LAST_DIM_F16)
d95e6d02SGuray Ozen    b_tma_shape = (BLOCK_K, TMA_LAST_DIM_F16)
d95e6d02SGuray Ozen    b_tile_shape = (BLOCK_K, BLOCK_N)
d95e6d02SGuray Ozen    txcount = (b_tile_shape[0] * b_tile_shape[1] * get_type_size(a_elem_ty)) + (
d95e6d02SGuray Ozen        a_tile_shape[0] * a_tile_shape[1] * get_type_size(b_elem_ty)
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    smem_space_str = "#gpu.address_space<workgroup>"
d95e6d02SGuray Ozen    smem_space = ir.Attribute.parse(smem_space_str)
d95e6d02SGuray Ozen    mbar_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.mbarrier.group<memorySpace = "
d95e6d02SGuray Ozen        + str(smem_space)
d95e6d02SGuray Ozen        + ", num_barriers = "
d95e6d02SGuray Ozen        + str(num_stages)
d95e6d02SGuray Ozen        + ">"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    acc_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.warpgroup.accumulator<fragmented=vector<"
d95e6d02SGuray Ozen        + str(BLOCK_M)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_N)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(c_elem_ty)
d95e6d02SGuray Ozen        + ">>"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    a_wgmma_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.warpgroup.descriptor<tensor=memref<"
d95e6d02SGuray Ozen        + str(BLOCK_M)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_K)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(a_elem_ty)
d95e6d02SGuray Ozen        + ", "
d95e6d02SGuray Ozen        + smem_space_str
d95e6d02SGuray Ozen        + ">>"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    b_wgmma_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.warpgroup.descriptor<tensor=memref<"
d95e6d02SGuray Ozen        + str(BLOCK_K)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_N)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(a_elem_ty)
d95e6d02SGuray Ozen        + ", "
d95e6d02SGuray Ozen        + smem_space_str
d95e6d02SGuray Ozen        + ">>"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    kernelName = make_kernel_name(
d95e6d02SGuray Ozen        input_type, output_type, M, N, K, BLOCK_M, BLOCK_N, BLOCK_K, num_stages, True
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    with ir.InsertionPoint(module.body):
d95e6d02SGuray Ozen        fop = func.FuncOp(kernelName, ([a_ty, b_ty, c_ty], []))
d95e6d02SGuray Ozen        with ir.InsertionPoint(fop.add_entry_block()):
d95e6d02SGuray Ozen            a_host = fop.arguments[0]
d95e6d02SGuray Ozen            b_host = fop.arguments[1]
d95e6d02SGuray Ozen            c_host = fop.arguments[2]
d95e6d02SGuray Ozen            lhs_tile_bytes = BLOCK_M * BLOCK_K * get_type_size(a_elem_ty)
d95e6d02SGuray Ozen            rhs_tile_bytes = BLOCK_N * BLOCK_K * get_type_size(b_elem_ty)
d95e6d02SGuray Ozen            smem_size_input = (lhs_tile_bytes + rhs_tile_bytes) * num_stages
d95e6d02SGuray Ozen            smem_size_output = BLOCK_M * BLOCK_N * get_type_size(c_elem_ty)
d95e6d02SGuray Ozen            smem_size = max(smem_size_input, smem_size_output)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 1. Allocate device memory and memcpy
d95e6d02SGuray Ozen            t1 = gpu.wait(token_ty, [])
d95e6d02SGuray Ozen            a_device, t2 = gpu.alloc(a_ty, token_ty, [t1], [], [])
d95e6d02SGuray Ozen            b_device, t3 = gpu.alloc(b_ty, token_ty, [t2], [], [])
d95e6d02SGuray Ozen            c_device, t4 = gpu.alloc(c_ty, token_ty, [t3], [], [])
d95e6d02SGuray Ozen            t5 = gpu.memcpy(token_ty, [t4], a_device, a_host)
d95e6d02SGuray Ozen            t6 = gpu.memcpy(token_ty, [t5], b_device, b_host)
d95e6d02SGuray Ozen            t7 = gpu.wait(token_ty, [t6])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 2. Create TMA Descriptors
c82f45f9SGuray Ozen            a_tma_desc = TmaDescriptorBuilder(
c82f45f9SGuray Ozen                nvgpu.TensorMapSwizzleKind.SWIZZLE_128B,
c82f45f9SGuray Ozen                nvgpu.TensorMapL2PromoKind.L2PROMO_NONE,
c82f45f9SGuray Ozen                nvgpu.TensorMapOOBKind.OOB_ZERO,
c82f45f9SGuray Ozen                nvgpu.TensorMapInterleaveKind.INTERLEAVE_NONE,
c82f45f9SGuray Ozen                a_tma_shape,
c82f45f9SGuray Ozen                a_ty,
d95e6d02SGuray Ozen            )
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen            b_tma_desc = TmaDescriptorBuilder(
c82f45f9SGuray Ozen                nvgpu.TensorMapSwizzleKind.SWIZZLE_128B,
c82f45f9SGuray Ozen                nvgpu.TensorMapL2PromoKind.L2PROMO_NONE,
c82f45f9SGuray Ozen                nvgpu.TensorMapOOBKind.OOB_ZERO,
c82f45f9SGuray Ozen                nvgpu.TensorMapInterleaveKind.INTERLEAVE_NONE,
c82f45f9SGuray Ozen                b_tma_shape,
c82f45f9SGuray Ozen                b_ty,
d95e6d02SGuray Ozen            )
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen            a_tma_desc_op = a_tma_desc.tma_descriptor_op(a_device)
c82f45f9SGuray Ozen            b_tma_desc_op = b_tma_desc.tma_descriptor_op(b_device)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 3. Launch Kernel with 2 Warpgroups : 1 Producer, 1 Consumer
d95e6d02SGuray Ozen            cta_m = M // BLOCK_M
d95e6d02SGuray Ozen            cta_n = N // BLOCK_N
d95e6d02SGuray Ozen            assert M % BLOCK_M == 0 and N % BLOCK_N == 0
d95e6d02SGuray Ozen            grid = (cta_m, cta_n, 1)
d95e6d02SGuray Ozen            block = (WARP_GROUP_SIZE * 2, 1, 1)
d95e6d02SGuray Ozen            launch_op = gpu.LaunchOp(
d95e6d02SGuray Ozen                token_ty,
d95e6d02SGuray Ozen                [t7],
d95e6d02SGuray Ozen                *map(c, grid),
d95e6d02SGuray Ozen                *map(c, block),
c82f45f9SGuray Ozen                dynamicSharedMemorySize=c(smem_size, ty=T.i32()),
d95e6d02SGuray Ozen            )
d95e6d02SGuray Ozen            launch_op.body.blocks.append(*([T.index()] * 12))
d95e6d02SGuray Ozen            with ir.InsertionPoint(launch_op.body.blocks[0]):
d95e6d02SGuray Ozen                # GPU Step 0. This is need for vectorized ld/st
d95e6d02SGuray Ozen                memref.assume_alignment(c_device, 16)
d95e6d02SGuray Ozen                dynamic_smem = gpu.dynamic_shared_memory(
d95e6d02SGuray Ozen                    ir.MemRefType.get((MLIR_DYNAMIC,), T.i8(), memory_space=smem_space)
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                ticks = c(10000000)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 1. Bootstrapping: find the primary thread, warps, warp groups and etc.
d95e6d02SGuray Ozen                tidx = gpu.thread_id(gpu.Dimension.x)
d95e6d02SGuray Ozen                wgPrimaryThread = arith.cmpi(
d95e6d02SGuray Ozen                    arith.CmpIPredicate.eq, arith.remui(tidx, c(WARP_GROUP_SIZE)), c(0)
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                warp_id = arith.divui(tidx, c(32))
d95e6d02SGuray Ozen                warpgroup_id = arith.divui(warp_id, c(4))
d95e6d02SGuray Ozen                is_producer = arith.cmpi(
d95e6d02SGuray Ozen                    arith.CmpIPredicate.eq,
d95e6d02SGuray Ozen                    warpgroup_id,
d95e6d02SGuray Ozen                    c(1 if PRODUCER_PRIMARY_THREAD == 128 else 0),
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                is_consumer = arith.cmpi(
d95e6d02SGuray Ozen                    arith.CmpIPredicate.eq,
d95e6d02SGuray Ozen                    warpgroup_id,
d95e6d02SGuray Ozen                    c(0 if CONSUMER_PRIMARY_THREAD == 0 else 1),
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                producerPrimaryThread = arith.cmpi(
d95e6d02SGuray Ozen                    arith.CmpIPredicate.eq, tidx, c(PRODUCER_PRIMARY_THREAD)
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                consumerPrimaryThread = arith.cmpi(
d95e6d02SGuray Ozen                    arith.CmpIPredicate.eq, tidx, c(CONSUMER_PRIMARY_THREAD)
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                bidx = gpu.block_id(gpu.Dimension.x)
d95e6d02SGuray Ozen                bidy = gpu.block_id(gpu.Dimension.y)
d95e6d02SGuray Ozen                dimX = arith.muli(bidx, c(BLOCK_M))
d95e6d02SGuray Ozen                dimY = arith.muli(bidy, c(BLOCK_N))
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 2. Initialize mbarrier groups
d95e6d02SGuray Ozen                mbarTMA = nvgpu.mbarrier_create(mbar_ty)
d95e6d02SGuray Ozen                mbarDONE = nvgpu.mbarrier_create(mbar_ty)
d95e6d02SGuray Ozen                for i in range(num_stages):
d95e6d02SGuray Ozen                    nvgpu.mbarrier_init(mbarTMA, c(1), c(i), predicate=wgPrimaryThread)
d95e6d02SGuray Ozen                    nvgpu.mbarrier_init(mbarDONE, c(1), c(i), predicate=wgPrimaryThread)
d95e6d02SGuray Ozen                gpu.barrier()
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 3. Prefetch TMA descriptors
c82f45f9SGuray Ozen                nvgpu.tma_prefetch_descriptor(a_tma_desc_op, predicate=wgPrimaryThread)
c82f45f9SGuray Ozen                nvgpu.tma_prefetch_descriptor(b_tma_desc_op, predicate=wgPrimaryThread)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                ns = num_stages if num_stages == 1 else num_stages - 1
d95e6d02SGuray Ozen                # GPU Step 5. Producer Warpgroup (TMA Warpgroup)
d95e6d02SGuray Ozen                with ir.InsertionPoint(scf.IfOp(is_producer).then_block):
d95e6d02SGuray Ozen                    # Step 5.1. Reduce register size
d95e6d02SGuray Ozen                    nvvm.setmaxregister(
d95e6d02SGuray Ozen                        PRODUCER_REGISTER_SIZE, nvvm.SetMaxRegisterAction.decrease
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 5.2. TMA Main Loop
d95e6d02SGuray Ozen                    for_op = scf.ForOp(
d95e6d02SGuray Ozen                        c(0), c(K // BLOCK_K), c(1), [arith.constant(T.bool(), 1)]
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    with ir.InsertionPoint(for_op.body):
d95e6d02SGuray Ozen                        phaseParity = for_op.inner_iter_args[0]
d95e6d02SGuray Ozen                        iv = for_op.induction_variable
d95e6d02SGuray Ozen                        stage = arith.remui(iv, c(num_stages))
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        # Step 5.2.1. Wait mbarDONE
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[prod] iv={}  | mbarDONE[{}] try_wait  phase={}",
d95e6d02SGuray Ozen                            iv,
d95e6d02SGuray Ozen                            stage,
d95e6d02SGuray Ozen                            phaseParity,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        nvgpu.MBarrierTryWaitParityOp(
d95e6d02SGuray Ozen                            mbarDONE, phaseParity, ticks, mbarId=stage
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[prod] iv={}  | mbarDONE[{}] try_wait  phase={} [done]",
d95e6d02SGuray Ozen                            iv,
d95e6d02SGuray Ozen                            stage,
d95e6d02SGuray Ozen                            phaseParity,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        p = arith.cmpi(arith.CmpIPredicate.eq, stage, c(num_stages - 1))
d95e6d02SGuray Ozen                        phaseParity = arith.select(
d95e6d02SGuray Ozen                            p,
d95e6d02SGuray Ozen                            arith.xori(phaseParity, arith.constant(T.bool(), 1)),
d95e6d02SGuray Ozen                            phaseParity,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        # Step 5.2.2. Load TMA
d95e6d02SGuray Ozen                        a_offset = arith.muli(stage, c(lhs_tile_bytes))
d95e6d02SGuray Ozen                        a_tma_slice = memref.view(
d95e6d02SGuray Ozen                            ir.MemRefType.get(
d95e6d02SGuray Ozen                                a_tma_shape, a_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                            ),
d95e6d02SGuray Ozen                            dynamic_smem,
d95e6d02SGuray Ozen                            a_offset,
d95e6d02SGuray Ozen                            [],
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        b_offset = arith.addi(
d95e6d02SGuray Ozen                            arith.muli(stage, c(rhs_tile_bytes)),
d95e6d02SGuray Ozen                            c(lhs_tile_bytes * num_stages),
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        b_tma_slice_1 = memref.view(
d95e6d02SGuray Ozen                            ir.MemRefType.get(
d95e6d02SGuray Ozen                                b_tma_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                            ),
d95e6d02SGuray Ozen                            dynamic_smem,
d95e6d02SGuray Ozen                            b_offset,
d95e6d02SGuray Ozen                            [],
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        b_offset2 = arith.addi(
d95e6d02SGuray Ozen                            b_offset,
d95e6d02SGuray Ozen                            c(BLOCK_K * TMA_LAST_DIM_F16 * get_type_size(b_elem_ty)),
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        b_tma_slice_2 = memref.view(
d95e6d02SGuray Ozen                            ir.MemRefType.get(
d95e6d02SGuray Ozen                                b_tma_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                            ),
d95e6d02SGuray Ozen                            dynamic_smem,
d95e6d02SGuray Ozen                            b_offset2,
d95e6d02SGuray Ozen                            [],
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[prod] a_offset={} b_offset={} b_offset2={}",
d95e6d02SGuray Ozen                            a_offset,
d95e6d02SGuray Ozen                            b_offset,
d95e6d02SGuray Ozen                            b_offset2,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        coord = arith.muli(c(64), iv)
d95e6d02SGuray Ozen                        nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                            a_tma_slice,
d95e6d02SGuray Ozen                            mbarTMA,
c82f45f9SGuray Ozen                            a_tma_desc_op,
d95e6d02SGuray Ozen                            coordinates=[coord, dimX],
d95e6d02SGuray Ozen                            mbarId=stage,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                            b_tma_slice_1,
d95e6d02SGuray Ozen                            mbarTMA,
c82f45f9SGuray Ozen                            b_tma_desc_op,
d95e6d02SGuray Ozen                            coordinates=[dimY, coord],
d95e6d02SGuray Ozen                            mbarId=stage,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        dimY2 = arith.addi(dimY, c(64))
d95e6d02SGuray Ozen                        nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                            b_tma_slice_2,
d95e6d02SGuray Ozen                            mbarTMA,
c82f45f9SGuray Ozen                            b_tma_desc_op,
d95e6d02SGuray Ozen                            coordinates=[dimY2, coord],
d95e6d02SGuray Ozen                            mbarId=stage,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        # Step 5.2.3. Arrive mbarTMA
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[prod] iv={}  | mbarTMA[{}] arrive",
d95e6d02SGuray Ozen                            iv,
d95e6d02SGuray Ozen                            stage,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        nvgpu.mbarrier_arrive_expect_tx(
d95e6d02SGuray Ozen                            mbarTMA, c(txcount), stage, predicate=producerPrimaryThread
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[prod] iv={}  | mbarTMA[{}] arrive [done]",
d95e6d02SGuray Ozen                            iv,
d95e6d02SGuray Ozen                            stage,
d95e6d02SGuray Ozen                            predicate=producerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        scf.yield_([phaseParity])
d95e6d02SGuray Ozen                    scf.yield_([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 6. Consumer Warpgroup (MMA Warpgroup)
d95e6d02SGuray Ozen                if_op = scf.IfOp(is_consumer)
d95e6d02SGuray Ozen                with ir.InsertionPoint(if_op.then_block):
d95e6d02SGuray Ozen                    # Step 6.1. Increase register size
d95e6d02SGuray Ozen                    nvvm.setmaxregister(
d95e6d02SGuray Ozen                        CONSUMER_REGISTER_SIZE, nvvm.SetMaxRegisterAction.increase
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # GPU Step 6.2. Initialize MMA registers
d95e6d02SGuray Ozen                    acc = nvgpu.warpgroup_mma_init_accumulator(acc_ty)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 6.3. MMA Main Loop
d95e6d02SGuray Ozen                    for_op = scf.ForOp(
d95e6d02SGuray Ozen                        c(0), c(K // BLOCK_K), c(1), [acc, arith.constant(T.bool(), 0)]
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    with ir.InsertionPoint(for_op.body):
d95e6d02SGuray Ozen                        # Step 6.3.1. Wait mbar1
d95e6d02SGuray Ozen                        phaseParity = for_op.inner_iter_args[1]
d95e6d02SGuray Ozen                        iv = for_op.induction_variable
d95e6d02SGuray Ozen                        stage = arith.remui(iv, c(num_stages))
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[cons] iv={}  | mbarTMA[{}] try_wait   phase={}",
d95e6d02SGuray Ozen                            iv,
d95e6d02SGuray Ozen                            stage,
d95e6d02SGuray Ozen                            phaseParity,
d95e6d02SGuray Ozen                            predicate=consumerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        nvgpu.MBarrierTryWaitParityOp(
d95e6d02SGuray Ozen                            mbarTMA, phaseParity, ticks, mbarId=stage
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[cons] iv={}  | mbarTMA[{}] try_wait   phase={} [done]",
d95e6d02SGuray Ozen                            iv,
d95e6d02SGuray Ozen                            stage,
d95e6d02SGuray Ozen                            phaseParity,
d95e6d02SGuray Ozen                            predicate=consumerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        # Step 6.3.2. Create WGMMA Descriptors
d95e6d02SGuray Ozen                        a_offset = arith.muli(stage, c(lhs_tile_bytes))
d95e6d02SGuray Ozen                        a_tile_slice = memref.view(
d95e6d02SGuray Ozen                            ir.MemRefType.get(
d95e6d02SGuray Ozen                                a_tile_shape, a_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                            ),
d95e6d02SGuray Ozen                            dynamic_smem,
d95e6d02SGuray Ozen                            a_offset,
d95e6d02SGuray Ozen                            [],
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        b_offset = arith.addi(
d95e6d02SGuray Ozen                            arith.muli(stage, c(rhs_tile_bytes)),
d95e6d02SGuray Ozen                            c(lhs_tile_bytes * num_stages),
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        b_tile_slice = memref.view(
d95e6d02SGuray Ozen                            ir.MemRefType.get(
d95e6d02SGuray Ozen                                b_tile_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                            ),
d95e6d02SGuray Ozen                            dynamic_smem,
d95e6d02SGuray Ozen                            b_offset,
d95e6d02SGuray Ozen                            [],
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        debug_print(
d95e6d02SGuray Ozen                            "[cons] a_offset={} b_offset={}",
d95e6d02SGuray Ozen                            a_offset,
d95e6d02SGuray Ozen                            b_offset,
d95e6d02SGuray Ozen                            predicate=consumerPrimaryThread,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        da = nvgpu.WarpgroupGenerateDescriptorOp(
c82f45f9SGuray Ozen                            a_wgmma_ty, a_tile_slice, a_tma_desc_op
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen                        db = nvgpu.WarpgroupGenerateDescriptorOp(
c82f45f9SGuray Ozen                            b_wgmma_ty, b_tile_slice, b_tma_desc_op
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        # Step 6.3.3. MMA
d95e6d02SGuray Ozen                        carry_acc = for_op.inner_iter_args[0]
d95e6d02SGuray Ozen                        new_acc = nvgpu.WarpgroupMmaOp(
d95e6d02SGuray Ozen                            acc.type, da, db, carry_acc, transposeB=True
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        # Step 6.3.4. Arrive mbarDONE
d95e6d02SGuray Ozen                        if num_stages == 1:
d95e6d02SGuray Ozen                            p_arrive = consumerPrimaryThread
d95e6d02SGuray Ozen                        else:
d95e6d02SGuray Ozen                            p1 = arith.cmpi(arith.CmpIPredicate.sgt, iv, c(0))
d95e6d02SGuray Ozen                            p_arrive = arith.andi(consumerPrimaryThread, p1)
d95e6d02SGuray Ozen                        with ir.InsertionPoint(scf.IfOp(p_arrive).then_block):
d95e6d02SGuray Ozen                            p = arith.cmpi(arith.CmpIPredicate.eq, stage, c(0))
d95e6d02SGuray Ozen                            barId = arith.select(
d95e6d02SGuray Ozen                                p, c(num_stages - 1), arith.subi(stage, c(1))
d95e6d02SGuray Ozen                            )
d95e6d02SGuray Ozen                            debug_print(
d95e6d02SGuray Ozen                                "[cons] iv={}  | mbarDONE[{}] arrive ",
d95e6d02SGuray Ozen                                iv,
d95e6d02SGuray Ozen                                barId,
d95e6d02SGuray Ozen                                predicate=consumerPrimaryThread,
d95e6d02SGuray Ozen                            )
*13d6233eSDurgadoss R                            nvgpu.mbarrier_arrive(mbarDONE, barId)
d95e6d02SGuray Ozen                            debug_print(
d95e6d02SGuray Ozen                                "[cons] iv={}  | mbarDONE[{}] arrive [done]",
d95e6d02SGuray Ozen                                iv,
d95e6d02SGuray Ozen                                barId,
d95e6d02SGuray Ozen                                predicate=consumerPrimaryThread,
d95e6d02SGuray Ozen                            )
d95e6d02SGuray Ozen                            scf.yield_([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        p = arith.cmpi(arith.CmpIPredicate.eq, stage, c(num_stages - 1))
d95e6d02SGuray Ozen                        phaseParity = arith.select(
d95e6d02SGuray Ozen                            p,
d95e6d02SGuray Ozen                            arith.xori(phaseParity, arith.constant(T.bool(), 1)),
d95e6d02SGuray Ozen                            phaseParity,
d95e6d02SGuray Ozen                        )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                        # Step 6.3.5. Yield
d95e6d02SGuray Ozen                        scf.yield_([new_acc, phaseParity])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    with ir.InsertionPoint(scf.IfOp(consumerPrimaryThread).then_block):
d95e6d02SGuray Ozen                        barId = c((K // BLOCK_K) % num_stages)
*13d6233eSDurgadoss R                        nvgpu.mbarrier_arrive(mbarDONE, barId)
d95e6d02SGuray Ozen                        scf.yield_([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 6.4. Epilogue (registers --> shared memory)
d95e6d02SGuray Ozen                    acc_smem_ty = ir.MemRefType.get(
d95e6d02SGuray Ozen                        (BLOCK_M, BLOCK_N), c_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    acc_smem = memref.view(acc_smem_ty, dynamic_smem, c(0), [])
d95e6d02SGuray Ozen                    debug_print("[cons]  | Storing", predicate=consumerPrimaryThread)
d95e6d02SGuray Ozen                    nvgpu.WarpgroupMmaStoreOp(for_op.results[0], acc_smem)
d95e6d02SGuray Ozen                    scf.yield_([])
d95e6d02SGuray Ozen                gpu.barrier()
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 9. Epilogue (shared memory --> global memory)
d95e6d02SGuray Ozen                fd = ir.MemRefType.get(
d95e6d02SGuray Ozen                    [BLOCK_M * BLOCK_N], c_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                collapsed_smem = memref.view(fd, dynamic_smem, c(0), [])
d95e6d02SGuray Ozen                rty = ir.MemRefType.get(
d95e6d02SGuray Ozen                    (BLOCK_M, BLOCK_N),
d95e6d02SGuray Ozen                    c_elem_ty,
d95e6d02SGuray Ozen                    ir.Attribute.parse("strided<[" + str(N) + ", 1], offset: ?>"),
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                c_device_per_block = memref.SubViewOp(
d95e6d02SGuray Ozen                    rty,
d95e6d02SGuray Ozen                    c_device,
d95e6d02SGuray Ozen                    [dimX, dimY],
d95e6d02SGuray Ozen                    [],
d95e6d02SGuray Ozen                    [],
d95e6d02SGuray Ozen                    [MLIR_DYNAMIC, MLIR_DYNAMIC],
d95e6d02SGuray Ozen                    [BLOCK_M, BLOCK_N],
d95e6d02SGuray Ozen                    [1, 1],
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                vlen = 1
d95e6d02SGuray Ozen                for_op = scf.ForOp(
d95e6d02SGuray Ozen                    tidx, c(BLOCK_M * BLOCK_N), c(vlen * WARP_GROUP_SIZE * 2)
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                with ir.InsertionPoint(for_op.body):
d95e6d02SGuray Ozen                    x = arith.divui(for_op.induction_variable, c(BLOCK_M))
d95e6d02SGuray Ozen                    y = arith.remui(for_op.induction_variable, c(BLOCK_N))
d95e6d02SGuray Ozen                    vdata = vector.load(
d95e6d02SGuray Ozen                        ir.VectorType.get((vlen,), c_elem_ty),
d95e6d02SGuray Ozen                        collapsed_smem,
d95e6d02SGuray Ozen                        [for_op.induction_variable],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    vector.store(vdata, c_device_per_block, [x, y])
d95e6d02SGuray Ozen                    scf.yield_([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                gpu.terminator()
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 4. Copy back to host
d95e6d02SGuray Ozen            t8 = gpu.wait(token_ty, [launch_op])
d95e6d02SGuray Ozen            t9 = gpu.memcpy(token_ty, [t8], c_host, c_device)
d95e6d02SGuray Ozen            gpu.dealloc(token_ty, [t8], a_device)
d95e6d02SGuray Ozen            gpu.dealloc(token_ty, [t8], b_device)
d95e6d02SGuray Ozen            gpu.wait(token_ty, [t9])
d95e6d02SGuray Ozen            gpu.dealloc(token_ty, [t8], c_device)
d95e6d02SGuray Ozen            func.ReturnOp([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen    fop.attributes["llvm.emit_c_interface"] = ir.UnitAttr.get()
d95e6d02SGuray Ozen    module.operation.verify()
d95e6d02SGuray Ozen    return module
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen
d95e6d02SGuray Ozendef generate_matmul_multistage(
d95e6d02SGuray Ozen    input_type=np.float16,
d95e6d02SGuray Ozen    output_type=np.float32,
d95e6d02SGuray Ozen    M=4096,
d95e6d02SGuray Ozen    N=4096,
d95e6d02SGuray Ozen    K=4096,
d95e6d02SGuray Ozen    BLOCK_M=128,
d95e6d02SGuray Ozen    BLOCK_N=128,
d95e6d02SGuray Ozen    BLOCK_K=64,
d95e6d02SGuray Ozen    num_stages=3,
d95e6d02SGuray Ozen):
d95e6d02SGuray Ozen    # Limitaitons for now
d95e6d02SGuray Ozen    assert input_type == np.float16
d95e6d02SGuray Ozen    assert output_type == np.float32
d95e6d02SGuray Ozen    assert BLOCK_M == 128
d95e6d02SGuray Ozen    assert BLOCK_N == 128
d95e6d02SGuray Ozen    assert BLOCK_K == 64
d95e6d02SGuray Ozen    assert M % BLOCK_M == 0
d95e6d02SGuray Ozen    assert N % BLOCK_N == 0
d95e6d02SGuray Ozen    assert K % BLOCK_K == 0
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen    module = ir.Module.create()
f8ff9094SGuray Ozen    token_ty = gpu.AsyncTokenType.get()
d95e6d02SGuray Ozen    a_elem_ty = get_mlir_ty(input_type)
d95e6d02SGuray Ozen    b_elem_ty = get_mlir_ty(input_type)
d95e6d02SGuray Ozen    c_elem_ty = get_mlir_ty(output_type)
d95e6d02SGuray Ozen    a_ty = ir.MemRefType.get([M, K], a_elem_ty)
d95e6d02SGuray Ozen    b_ty = ir.MemRefType.get((K, N), b_elem_ty)
d95e6d02SGuray Ozen    c_ty = ir.MemRefType.get((M, N), c_elem_ty)
d95e6d02SGuray Ozen    a_tile_shape = a_tma_shape = (BLOCK_M, TMA_LAST_DIM_F16)
d95e6d02SGuray Ozen    b_tma_shape = (BLOCK_K, TMA_LAST_DIM_F16)
d95e6d02SGuray Ozen    b_tile_shape = (BLOCK_K, BLOCK_N)
d95e6d02SGuray Ozen    txcount = (b_tile_shape[0] * b_tile_shape[1] * get_type_size(a_elem_ty)) + (
d95e6d02SGuray Ozen        a_tile_shape[0] * a_tile_shape[1] * get_type_size(b_elem_ty)
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    smem_space_str = "#gpu.address_space<workgroup>"
d95e6d02SGuray Ozen    smem_space = ir.Attribute.parse(smem_space_str)
d95e6d02SGuray Ozen    mbar_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.mbarrier.group<memorySpace = "
d95e6d02SGuray Ozen        + str(smem_space)
d95e6d02SGuray Ozen        + ", num_barriers = "
d95e6d02SGuray Ozen        + str(num_stages)
d95e6d02SGuray Ozen        + ">"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    acc_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.warpgroup.accumulator<fragmented=vector<"
d95e6d02SGuray Ozen        + str(BLOCK_M)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_N)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(c_elem_ty)
d95e6d02SGuray Ozen        + ">>"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    a_wgmma_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.warpgroup.descriptor<tensor=memref<"
d95e6d02SGuray Ozen        + str(BLOCK_M)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_K)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(a_elem_ty)
d95e6d02SGuray Ozen        + ", "
d95e6d02SGuray Ozen        + smem_space_str
d95e6d02SGuray Ozen        + ">>"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen    b_wgmma_ty = ir.Type.parse(
d95e6d02SGuray Ozen        "!nvgpu.warpgroup.descriptor<tensor=memref<"
d95e6d02SGuray Ozen        + str(BLOCK_K)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(BLOCK_N)
d95e6d02SGuray Ozen        + "x"
d95e6d02SGuray Ozen        + str(a_elem_ty)
d95e6d02SGuray Ozen        + ", "
d95e6d02SGuray Ozen        + smem_space_str
d95e6d02SGuray Ozen        + ">>"
d95e6d02SGuray Ozen    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen    with ir.InsertionPoint(module.body):
d95e6d02SGuray Ozen        kernelName = make_kernel_name(
d95e6d02SGuray Ozen            input_type,
d95e6d02SGuray Ozen            output_type,
d95e6d02SGuray Ozen            M,
d95e6d02SGuray Ozen            N,
d95e6d02SGuray Ozen            K,
d95e6d02SGuray Ozen            BLOCK_M,
d95e6d02SGuray Ozen            BLOCK_N,
d95e6d02SGuray Ozen            BLOCK_K,
d95e6d02SGuray Ozen            num_stages,
d95e6d02SGuray Ozen            False,
d95e6d02SGuray Ozen        )
d95e6d02SGuray Ozen        fop = func.FuncOp(kernelName, ([a_ty, b_ty, c_ty], []))
d95e6d02SGuray Ozen        with ir.InsertionPoint(fop.add_entry_block()):
d95e6d02SGuray Ozen            a_host = fop.arguments[0]
d95e6d02SGuray Ozen            b_host = fop.arguments[1]
d95e6d02SGuray Ozen            c_host = fop.arguments[2]
d95e6d02SGuray Ozen            lhs_tile_bytes = BLOCK_M * BLOCK_K * get_type_size(a_elem_ty)
d95e6d02SGuray Ozen            rhs_tile_bytes = BLOCK_N * BLOCK_K * get_type_size(b_elem_ty)
d95e6d02SGuray Ozen            smem_size_input = (lhs_tile_bytes + rhs_tile_bytes) * num_stages
d95e6d02SGuray Ozen            smem_size_output = BLOCK_M * BLOCK_N * get_type_size(c_elem_ty)
d95e6d02SGuray Ozen            smem_size = max(smem_size_input, smem_size_output)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 1. Allocate device memory and memcpy
d95e6d02SGuray Ozen            t1 = gpu.wait(token_ty, [])
d95e6d02SGuray Ozen            a_device, t2 = gpu.alloc(a_ty, token_ty, [t1], [], [])
d95e6d02SGuray Ozen            b_device, t3 = gpu.alloc(b_ty, token_ty, [t2], [], [])
d95e6d02SGuray Ozen            c_device, t4 = gpu.alloc(c_ty, token_ty, [t3], [], [])
d95e6d02SGuray Ozen            t5 = gpu.memcpy(token_ty, [t4], a_device, a_host)
d95e6d02SGuray Ozen            t6 = gpu.memcpy(token_ty, [t5], b_device, b_host)
d95e6d02SGuray Ozen            t7 = gpu.wait(token_ty, [t6])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 2. Create TMA Descriptors
c82f45f9SGuray Ozen            a_tma_desc = TmaDescriptorBuilder(
c82f45f9SGuray Ozen                nvgpu.TensorMapSwizzleKind.SWIZZLE_128B,
c82f45f9SGuray Ozen                nvgpu.TensorMapL2PromoKind.L2PROMO_NONE,
c82f45f9SGuray Ozen                nvgpu.TensorMapOOBKind.OOB_ZERO,
c82f45f9SGuray Ozen                nvgpu.TensorMapInterleaveKind.INTERLEAVE_NONE,
c82f45f9SGuray Ozen                a_tma_shape,
c82f45f9SGuray Ozen                a_ty,
d95e6d02SGuray Ozen            )
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen            b_tma_desc = TmaDescriptorBuilder(
c82f45f9SGuray Ozen                nvgpu.TensorMapSwizzleKind.SWIZZLE_128B,
c82f45f9SGuray Ozen                nvgpu.TensorMapL2PromoKind.L2PROMO_NONE,
c82f45f9SGuray Ozen                nvgpu.TensorMapOOBKind.OOB_ZERO,
c82f45f9SGuray Ozen                nvgpu.TensorMapInterleaveKind.INTERLEAVE_NONE,
c82f45f9SGuray Ozen                b_tma_shape,
c82f45f9SGuray Ozen                b_ty,
d95e6d02SGuray Ozen            )
c82f45f9SGuray Ozen
c82f45f9SGuray Ozen            a_tma_desc_op = a_tma_desc.tma_descriptor_op(a_device)
c82f45f9SGuray Ozen            b_tma_desc_op = b_tma_desc.tma_descriptor_op(b_device)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 3. Launch Kernel with 1 Warpgroup
d95e6d02SGuray Ozen            cta_m = M // BLOCK_M
d95e6d02SGuray Ozen            cta_n = N // BLOCK_N
d95e6d02SGuray Ozen            assert M % BLOCK_M == 0 and N % BLOCK_N == 0
d95e6d02SGuray Ozen            grid = (cta_m, cta_n, 1)
d95e6d02SGuray Ozen            block = (WARP_GROUP_SIZE, 1, 1)
d95e6d02SGuray Ozen            launch_op = gpu.LaunchOp(
d95e6d02SGuray Ozen                token_ty,
d95e6d02SGuray Ozen                [t7],
d95e6d02SGuray Ozen                *map(c, grid),
d95e6d02SGuray Ozen                *map(c, block),
c82f45f9SGuray Ozen                dynamicSharedMemorySize=c(smem_size, ty=T.i32()),
d95e6d02SGuray Ozen            )
d95e6d02SGuray Ozen            launch_op.body.blocks.append(*([T.index()] * 12))
d95e6d02SGuray Ozen            with ir.InsertionPoint(launch_op.body.blocks[0]):
d95e6d02SGuray Ozen                # GPU Step 0. Bootstrapping
d95e6d02SGuray Ozen                memref.assume_alignment(c_device, 16)
d95e6d02SGuray Ozen                dynamic_smem = gpu.dynamic_shared_memory(
d95e6d02SGuray Ozen                    ir.MemRefType.get((MLIR_DYNAMIC,), T.i8(), memory_space=smem_space)
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                ticks = c(10000000)
d95e6d02SGuray Ozen                tidx = gpu.thread_id(gpu.Dimension.x)
d95e6d02SGuray Ozen                primaryThread = arith.cmpi(arith.CmpIPredicate.eq, tidx, c(0))
d95e6d02SGuray Ozen                warpId = arith.divui(tidx, c(32))
d95e6d02SGuray Ozen                bidx = gpu.block_id(gpu.Dimension.x)
d95e6d02SGuray Ozen                bidy = gpu.block_id(gpu.Dimension.y)
d95e6d02SGuray Ozen                dimX = arith.muli(bidx, c(BLOCK_M))
d95e6d02SGuray Ozen                dimY = arith.muli(bidy, c(BLOCK_N))
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 1. Initialize mbarrier groups
d95e6d02SGuray Ozen                mbarTMA = nvgpu.mbarrier_create(mbar_ty)
d95e6d02SGuray Ozen                for i in range(num_stages):
d95e6d02SGuray Ozen                    nvgpu.mbarrier_init(mbarTMA, c(1), c(i), predicate=primaryThread)
d95e6d02SGuray Ozen                gpu.barrier()
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 2. Prefetch TMA descriptors
c82f45f9SGuray Ozen                nvgpu.tma_prefetch_descriptor(a_tma_desc_op, predicate=primaryThread)
c82f45f9SGuray Ozen                nvgpu.tma_prefetch_descriptor(b_tma_desc_op, predicate=primaryThread)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 3. Prologue (global memory --> shared memory)
d95e6d02SGuray Ozen                ns = num_stages if num_stages == 1 else num_stages - 1
d95e6d02SGuray Ozen                for_op = scf.ForOp(c(0), c(ns), c(1))
d95e6d02SGuray Ozen                with ir.InsertionPoint(for_op.body):
d95e6d02SGuray Ozen                    iv = for_op.induction_variable
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 3.1. Calculate offsets
d95e6d02SGuray Ozen                    a_offset = arith.muli(iv, c(lhs_tile_bytes))
d95e6d02SGuray Ozen                    a_tma_slice = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            a_tma_shape, a_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        a_offset,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_offset = arith.addi(
d95e6d02SGuray Ozen                        arith.muli(iv, c(rhs_tile_bytes)),
d95e6d02SGuray Ozen                        c(lhs_tile_bytes * num_stages),
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_tma_slice_1 = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            b_tma_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_offset2 = arith.addi(
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        c(BLOCK_K * TMA_LAST_DIM_F16 * get_type_size(b_elem_ty)),
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_tma_slice_2 = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            b_tma_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        b_offset2,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 3.2. TMA Load
d95e6d02SGuray Ozen                    coord = arith.muli(c(64), iv)
d95e6d02SGuray Ozen                    dimY2 = arith.addi(dimY, c(64))
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[Prologue] TMA Load a_offset={} b_offset={} b_offset2={} @ a=({},{}) b=({},{})",
d95e6d02SGuray Ozen                        a_offset,
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        b_offset2,
d95e6d02SGuray Ozen                        coord,
d95e6d02SGuray Ozen                        dimX,
d95e6d02SGuray Ozen                        dimY,
d95e6d02SGuray Ozen                        coord,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                        a_tma_slice,
d95e6d02SGuray Ozen                        mbarTMA,
c82f45f9SGuray Ozen                        a_tma_desc_op,
d95e6d02SGuray Ozen                        coordinates=[coord, dimX],
d95e6d02SGuray Ozen                        mbarId=iv,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                        b_tma_slice_1,
d95e6d02SGuray Ozen                        mbarTMA,
c82f45f9SGuray Ozen                        b_tma_desc_op,
d95e6d02SGuray Ozen                        coordinates=[dimY, coord],
d95e6d02SGuray Ozen                        mbarId=iv,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                        b_tma_slice_2,
d95e6d02SGuray Ozen                        mbarTMA,
c82f45f9SGuray Ozen                        b_tma_desc_op,
d95e6d02SGuray Ozen                        coordinates=[dimY2, coord],
d95e6d02SGuray Ozen                        mbarId=iv,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 3.2. mbarTMA arrive
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[Prologue] mbarTMA[{}] arrive", iv, predicate=primaryThread
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.mbarrier_arrive_expect_tx(
d95e6d02SGuray Ozen                        mbarTMA, c(txcount), iv, predicate=primaryThread
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[Prologue] mbarTMA[{}] arrive [done]",
d95e6d02SGuray Ozen                        iv,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    scf.yield_([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 4. Main Loop
d95e6d02SGuray Ozen                acc = nvgpu.warpgroup_mma_init_accumulator(acc_ty)
d95e6d02SGuray Ozen                for_op = scf.ForOp(
d95e6d02SGuray Ozen                    c(0), c(K // BLOCK_K), c(1), [acc, arith.constant(T.bool(), 0)]
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                with ir.InsertionPoint(for_op.body):
d95e6d02SGuray Ozen                    # Step 4.1. Wait mbarTMA
d95e6d02SGuray Ozen                    phaseParity = for_op.inner_iter_args[1]
d95e6d02SGuray Ozen                    iv = for_op.induction_variable
d95e6d02SGuray Ozen                    stage = arith.remui(iv, c(num_stages))
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[MainLoop] mbarTMA[{}] try_wait   phase={}",
d95e6d02SGuray Ozen                        stage,
d95e6d02SGuray Ozen                        phaseParity,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.MBarrierTryWaitParityOp(
d95e6d02SGuray Ozen                        mbarTMA, phaseParity, ticks, mbarId=stage
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[MainLoop] mbarTMA[{}] try_wait   phase={} [done]",
d95e6d02SGuray Ozen                        stage,
d95e6d02SGuray Ozen                        phaseParity,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 4.2. Create WGMMA Descriptors
d95e6d02SGuray Ozen                    a_offset = arith.muli(stage, c(lhs_tile_bytes))
d95e6d02SGuray Ozen                    a_tile_slice = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            a_tile_shape, a_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        a_offset,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_offset = arith.addi(
d95e6d02SGuray Ozen                        arith.muli(stage, c(rhs_tile_bytes)),
d95e6d02SGuray Ozen                        c(lhs_tile_bytes * num_stages),
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_tile_slice = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            b_tile_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[MainLoop] iv={} MMA a_offset={} b_offset={}",
d95e6d02SGuray Ozen                        iv,
d95e6d02SGuray Ozen                        a_offset,
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        predicate=primaryThread,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    da = nvgpu.WarpgroupGenerateDescriptorOp(
c82f45f9SGuray Ozen                        a_wgmma_ty, a_tile_slice, a_tma_desc_op
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    db = nvgpu.WarpgroupGenerateDescriptorOp(
c82f45f9SGuray Ozen                        b_wgmma_ty, b_tile_slice, b_tma_desc_op
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 4.3. MMA
d95e6d02SGuray Ozen                    carry_acc = for_op.inner_iter_args[0]
d95e6d02SGuray Ozen                    new_acc = nvgpu.WarpgroupMmaOp(
d95e6d02SGuray Ozen                        acc.type, da, db, carry_acc, transposeB=True
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    if num_stages == 1:
d95e6d02SGuray Ozen                        nvvm.WgmmaWaitGroupSyncOp(0)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 4.4. Load TMA for next stage
d95e6d02SGuray Ozen                    p1 = arith.cmpi(
d95e6d02SGuray Ozen                        arith.CmpIPredicate.ult,
d95e6d02SGuray Ozen                        arith.addi(iv, c(ns)),
d95e6d02SGuray Ozen                        c(K // BLOCK_K),
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    p = arith.andi(primaryThread, p1)
d95e6d02SGuray Ozen                    nextStage = arith.addi(iv, c(ns))
d95e6d02SGuray Ozen                    nextSlot = arith.remui(nextStage, c(num_stages))
d95e6d02SGuray Ozen                    a_offset = arith.muli(nextSlot, c(lhs_tile_bytes))
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[MainLoop] mbarTMA[{}] arrive",
d95e6d02SGuray Ozen                        nextSlot,
d95e6d02SGuray Ozen                        predicate=p,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.mbarrier_arrive_expect_tx(
d95e6d02SGuray Ozen                        mbarTMA, c(txcount), nextSlot, predicate=p
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[MainLoop] mbarTMA[{}] arrive [done]",
d95e6d02SGuray Ozen                        nextSlot,
d95e6d02SGuray Ozen                        predicate=p,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    a_tma_slice = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            a_tma_shape, a_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        a_offset,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_offset = arith.addi(
d95e6d02SGuray Ozen                        arith.muli(nextSlot, c(rhs_tile_bytes)),
d95e6d02SGuray Ozen                        c(lhs_tile_bytes * num_stages),
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_tma_slice_1 = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            b_tma_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_offset2 = arith.addi(
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        c(BLOCK_K * TMA_LAST_DIM_F16 * get_type_size(b_elem_ty)),
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    b_tma_slice_2 = memref.view(
d95e6d02SGuray Ozen                        ir.MemRefType.get(
d95e6d02SGuray Ozen                            b_tma_shape, b_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                        ),
d95e6d02SGuray Ozen                        dynamic_smem,
d95e6d02SGuray Ozen                        b_offset2,
d95e6d02SGuray Ozen                        [],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    coord = arith.muli(c(64), nextStage)
d95e6d02SGuray Ozen                    debug_print(
d95e6d02SGuray Ozen                        "[MainLoop] iv={} TMA Load a_offset={} b_offset={} b_offset2={} @ a=({},{}) b=({},{})",
d95e6d02SGuray Ozen                        iv,
d95e6d02SGuray Ozen                        a_offset,
d95e6d02SGuray Ozen                        b_offset,
d95e6d02SGuray Ozen                        b_offset2,
d95e6d02SGuray Ozen                        coord,
d95e6d02SGuray Ozen                        dimX,
d95e6d02SGuray Ozen                        dimY,
d95e6d02SGuray Ozen                        coord,
d95e6d02SGuray Ozen                        predicate=p,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                        a_tma_slice,
d95e6d02SGuray Ozen                        mbarTMA,
c82f45f9SGuray Ozen                        a_tma_desc_op,
d95e6d02SGuray Ozen                        coordinates=[coord, dimX],
d95e6d02SGuray Ozen                        mbarId=nextSlot,
d95e6d02SGuray Ozen                        predicate=p,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                        b_tma_slice_1,
d95e6d02SGuray Ozen                        mbarTMA,
c82f45f9SGuray Ozen                        b_tma_desc_op,
d95e6d02SGuray Ozen                        coordinates=[dimY, coord],
d95e6d02SGuray Ozen                        mbarId=nextSlot,
d95e6d02SGuray Ozen                        predicate=p,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    dimY2 = arith.addi(dimY, c(64))
d95e6d02SGuray Ozen                    nvgpu.TmaAsyncLoadOp(
d95e6d02SGuray Ozen                        b_tma_slice_2,
d95e6d02SGuray Ozen                        mbarTMA,
c82f45f9SGuray Ozen                        b_tma_desc_op,
d95e6d02SGuray Ozen                        coordinates=[dimY2, coord],
d95e6d02SGuray Ozen                        mbarId=nextSlot,
d95e6d02SGuray Ozen                        predicate=p,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    # Step 4.5. Change the phaseParity
d95e6d02SGuray Ozen                    p = arith.cmpi(arith.CmpIPredicate.eq, stage, c(num_stages - 1))
d95e6d02SGuray Ozen                    phaseParity = arith.select(
d95e6d02SGuray Ozen                        p,
d95e6d02SGuray Ozen                        arith.xori(phaseParity, arith.constant(T.bool(), 1)),
d95e6d02SGuray Ozen                        phaseParity,
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                    # Step 4.5. Yield
d95e6d02SGuray Ozen                    scf.yield_([new_acc, phaseParity])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # Step 5. Wait All WGMMA groups
d95e6d02SGuray Ozen                nvvm.WgmmaWaitGroupSyncOp(0)
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # Step 6. Epilogue (registers --> shared memory)
d95e6d02SGuray Ozen                acc_smem_ty = ir.MemRefType.get(
d95e6d02SGuray Ozen                    (BLOCK_M, BLOCK_N), c_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                acc_smem = memref.view(acc_smem_ty, dynamic_smem, c(0), [])
d95e6d02SGuray Ozen                debug_print("Storing", predicate=primaryThread)
d95e6d02SGuray Ozen                nvgpu.WarpgroupMmaStoreOp(for_op.results[0], acc_smem)
d95e6d02SGuray Ozen                gpu.barrier()
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                # GPU Step 7. Epilogue (shared memory --> global memory)
d95e6d02SGuray Ozen                fd = ir.MemRefType.get(
d95e6d02SGuray Ozen                    [BLOCK_M * BLOCK_N], c_elem_ty, memory_space=smem_space
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                collapsed_smem = memref.view(fd, dynamic_smem, c(0), [])
d95e6d02SGuray Ozen                rty = ir.MemRefType.get(
d95e6d02SGuray Ozen                    (BLOCK_M, BLOCK_N),
d95e6d02SGuray Ozen                    c_elem_ty,
d95e6d02SGuray Ozen                    ir.Attribute.parse("strided<[" + str(N) + ", 1], offset: ?>"),
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                c_device_per_block = memref.SubViewOp(
d95e6d02SGuray Ozen                    rty,
d95e6d02SGuray Ozen                    c_device,
d95e6d02SGuray Ozen                    [dimX, dimY],
d95e6d02SGuray Ozen                    [],
d95e6d02SGuray Ozen                    [],
d95e6d02SGuray Ozen                    [MLIR_DYNAMIC, MLIR_DYNAMIC],
d95e6d02SGuray Ozen                    [BLOCK_M, BLOCK_N],
d95e6d02SGuray Ozen                    [1, 1],
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                vlen = 1
d95e6d02SGuray Ozen                for_op = scf.ForOp(
d95e6d02SGuray Ozen                    tidx, c(BLOCK_M * BLOCK_N), c(vlen * WARP_GROUP_SIZE)
d95e6d02SGuray Ozen                )
d95e6d02SGuray Ozen                with ir.InsertionPoint(for_op.body):
d95e6d02SGuray Ozen                    x = arith.divui(for_op.induction_variable, c(BLOCK_M))
d95e6d02SGuray Ozen                    y = arith.remui(for_op.induction_variable, c(BLOCK_N))
d95e6d02SGuray Ozen                    vdata = vector.load(
d95e6d02SGuray Ozen                        ir.VectorType.get((vlen,), c_elem_ty),
d95e6d02SGuray Ozen                        collapsed_smem,
d95e6d02SGuray Ozen                        [for_op.induction_variable],
d95e6d02SGuray Ozen                    )
d95e6d02SGuray Ozen                    vector.store(vdata, c_device_per_block, [x, y])
d95e6d02SGuray Ozen                    scf.yield_([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen                gpu.terminator()
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen            # Step 4. Copy back to host
d95e6d02SGuray Ozen            t8 = gpu.wait(token_ty, [launch_op])
d95e6d02SGuray Ozen            t9 = gpu.memcpy(token_ty, [t8], c_host, c_device)
d95e6d02SGuray Ozen            gpu.dealloc(token_ty, [t8], a_device)
d95e6d02SGuray Ozen            gpu.dealloc(token_ty, [t8], b_device)
d95e6d02SGuray Ozen            gpu.wait(token_ty, [t9])
d95e6d02SGuray Ozen            gpu.dealloc(token_ty, [t8], c_device)
d95e6d02SGuray Ozen            func.ReturnOp([])
d95e6d02SGuray Ozen
d95e6d02SGuray Ozen    fop.attributes["llvm.emit_c_interface"] = ir.UnitAttr.get()
d95e6d02SGuray Ozen    module.operation.verify()
d95e6d02SGuray Ozen    return module