Examples/NVGPU/Ch4.py

4d330820SGuray Ozen# RUN: env SUPPORT_LIB=%mlir_cuda_runtime \
4d330820SGuray Ozen# RUN:   %PYTHON %s | FileCheck %s
4d330820SGuray Ozen
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen#  Chapter 4 : Multistage GEMM with Tensor Core
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen#
4d330820SGuray Ozen# This program exemplifies a GEMM operation for `f32+=f16*f16`, utilizing the
4d330820SGuray Ozen# Multistage method with a tile size of 128x128x64. The code completely
4d330820SGuray Ozen# parallelizes the two outermost loops into thread blocks. It launches one Warp
4d330820SGuray Ozen# Groups (128 threads in total) and allocates multiple slots/stage in the
4d330820SGuray Ozen# shared memory. The program consists of three main parts: prologue, mainloop,
4d330820SGuray Ozen# and epilogue. In the prologue, thread0 requests for TMA to load data into
4d330820SGuray Ozen# shared memory slots. The mainloop executes MMA while simultaneously loading
4d330820SGuray Ozen# TMA for the utilized slots. This overlap of TMA and MMA operations enhances
4d330820SGuray Ozen# performance by maximizing computational throughput.
4d330820SGuray Ozen#
4d330820SGuray Ozen# Loops illustration:
4d330820SGuray Ozen#
4d330820SGuray Ozen#  for s in range(num_stages):
4d330820SGuray Ozen#    TMA_128x64_64x128...
4d330820SGuray Ozen#  for ti in range(M//128):  # -> blockIdx.x
4d330820SGuray Ozen#   for tj in range(N//128): # -> blockIdx.y
4d330820SGuray Ozen#    for tk in range(K//64):
4d330820SGuray Ozen#      MMA_128x128x64...
4d330820SGuray Ozen#      TMA_128x64_64x128...
4d330820SGuray Ozen#  Epilogue...
4d330820SGuray Ozen#
4d330820SGuray Ozen# This chapter introduces demonstrates:
4d330820SGuray Ozen#  1. Partition shape based on block IDs
4d330820SGuray Ozen#  2. Prologue
4d330820SGuray Ozen#    2.1 Execute TMA Load for two input matrices for each stage
4d330820SGuray Ozen#  3. Main loop
4d330820SGuray Ozen#    3.1 Wait for completion of TMA load with mbarrier
4d330820SGuray Ozen#    3.2 Performs Tensor Core GEMM 64x128x64 by warpgroup
4d330820SGuray Ozen#    3.3 Load next stage if needed
4d330820SGuray Ozen#  4. Epilogue
4d330820SGuray Ozen#    4.1 Store fragmented registers to shared memory
4d330820SGuray Ozen#    4.2 Store shared memory to global
4d330820SGuray Ozen#
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozenfrom mlir import ir
4d330820SGuray Ozenfrom mlir.dialects import gpu, scf, nvgpu, nvvm
4d330820SGuray Ozenfrom mlir.extras import types as T
4d330820SGuray Ozenfrom tools.nvdsl import *
4d330820SGuray Ozenimport numpy as np
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef partition_shape():
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Calculate the partition shape based on the block IDs.
4d330820SGuray Ozen
4d330820SGuray Ozen    It partitions the shape like below:
4d330820SGuray Ozen    for(.. i < M ...)   --> blockIdx.x
4d330820SGuray Ozen     for(.. j < N ...)  --> blockIdx.y
4d330820SGuray Ozen      for(.. k < K ...)
4d330820SGuray Ozen
4d330820SGuray Ozen    Returns:
4d330820SGuray Ozen        dimX (int): Dimension along the x-axis.
4d330820SGuray Ozen        dimY (int): Dimension along the y-axis.
4d330820SGuray Ozen    """
4d330820SGuray Ozen    bidx = gpu.block_id(gpu.Dimension.x)
4d330820SGuray Ozen    bidy = gpu.block_id(gpu.Dimension.y)
4d330820SGuray Ozen    dimX = bidx * TILE_M
4d330820SGuray Ozen    dimY = bidy * TILE_N
4d330820SGuray Ozen    return dimX, dimY
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef tma_load(
4d330820SGuray Ozen    mbar_group: Mbarriers,
4d330820SGuray Ozen    a_tma: TMA,
4d330820SGuray Ozen    b_tma: TMA,
4d330820SGuray Ozen    slot,
4d330820SGuray Ozen    stage,
4d330820SGuray Ozen    num_stages,
4d330820SGuray Ozen    p=None,
4d330820SGuray Ozen):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    TMA loads two input matrices from global memory to shared memory. It performs the following operations:
4d330820SGuray Ozen
4d330820SGuray Ozen       - tma.load a_shared_memory[off_x]  at coordinate [x, z]      (Loads 128x64)
4d330820SGuray Ozen       - tma.load b_shared_memory[off_y1] at coordinate [y, x]      (Loads 64x64)
4d330820SGuray Ozen       - tma.load b_shared_memory[off_y2] at coordinate [y + 64, x] (Loads 64x64)
4d330820SGuray Ozen
4d330820SGuray Ozen       mbarrier.arrive ta_count = 128x64x2x4
4d330820SGuray Ozen    """
4d330820SGuray Ozen    dimX, dimY = partition_shape()
4d330820SGuray Ozen
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen    begin_b = num_stages * get_type_size(a_tma.tma_memref)
4d330820SGuray Ozen    size_tma_a = get_type_size(a_tma.tma_memref)
4d330820SGuray Ozen    size_tma_b = get_type_size(b_tma.tma_memref)
4d330820SGuray Ozen    ta_count = size_tma_a + (size_tma_b * 2)
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen
4d330820SGuray Ozen    p = tidx == 0 if p is None else p
4d330820SGuray Ozen
4d330820SGuray Ozen    off_a = slot * size_tma_a
4d330820SGuray Ozen    off_b = (slot * size_tma_a) + begin_b
4d330820SGuray Ozen    off_b2 = off_b + size_tma_b
4d330820SGuray Ozen    a_elem_ty = a_tma.tma_memref.element_type
4d330820SGuray Ozen    b_elem_ty = b_tma.tma_memref.element_type
4d330820SGuray Ozen    a = get_dynamic_shared_memory(a_tma.tma_memref.shape, a_elem_ty, off_a)
4d330820SGuray Ozen    b1 = get_dynamic_shared_memory(b_tma.tma_memref.shape, b_elem_ty, off_b)
4d330820SGuray Ozen    b2 = get_dynamic_shared_memory(b_tma.tma_memref.shape, b_elem_ty, off_b2)
4d330820SGuray Ozen
4d330820SGuray Ozen    mbar_group[slot].arrive(ta_count, predicate=p)
4d330820SGuray Ozen
4d330820SGuray Ozen    c1 = stage * 64
4d330820SGuray Ozen    a_tma.load(a, mbar_group[slot], coords=[c1, dimX], predicate=p)
4d330820SGuray Ozen    b_tma.load(b1, mbar_group[slot], coords=[dimY, c1], predicate=p)
4d330820SGuray Ozen    b_tma.load(b2, mbar_group[slot], coords=[dimY + 64, c1], predicate=p)
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef initialize(a_tma: TMA, b_tma: TMA, num_stages):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Initialize mbarriers and prefetch TMA descriptors.
4d330820SGuray Ozen    """
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen    mbar_group = Mbarriers(number_of_barriers=num_stages)
4d330820SGuray Ozen    isThread0 = tidx == const(0)
4d330820SGuray Ozen    with ir.InsertionPoint(scf.IfOp(isThread0).then_block):
4d330820SGuray Ozen        for i in scf.for_(0, num_stages, 1):
4d330820SGuray Ozen            mbar_group[i].init(1)
4d330820SGuray Ozen            scf.yield_([])
4d330820SGuray Ozen        a_tma.prefetch()
4d330820SGuray Ozen        b_tma.prefetch()
4d330820SGuray Ozen        scf.yield_([])
4d330820SGuray Ozen
4d330820SGuray Ozen    return mbar_group
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef prologue(mbar_group: Mbarriers, a_tma: TMA, b_tma: TMA, num_stages):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Prologue of the GEMM kernel. It loads 2 input matrices for each stage in loop like below:
4d330820SGuray Ozen
4d330820SGuray Ozen    for stage in range(NUM_STAGES):
4d330820SGuray Ozen        tma_load x, y, stage
4d330820SGuray Ozen
4d330820SGuray Ozen    """
4d330820SGuray Ozen    ns = num_stages if num_stages == 1 else num_stages - 1
4d330820SGuray Ozen    for iv in scf.for_(0, ns, 1):
4d330820SGuray Ozen        tma_load(mbar_group, a_tma, b_tma, iv, iv, num_stages)
4d330820SGuray Ozen        scf.yield_([])
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef mainloop(mbar_group: Mbarriers, a_tma: TMA, b_tma: TMA, num_stages):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Main loop of the Multistage GEMM kernel. It iterates through
4d330820SGuray Ozen    stages and performs matrix multiplication, loading data by TMA to shared memory. It like following
4d330820SGuray Ozen
4d330820SGuray Ozen    MatrixAccumulator D
4d330820SGuray Ozen    for k in range(K // TILE_K):
4d330820SGuray Ozen
4d330820SGuray Ozen        try_wait(stage, ...)    # Wait TMA load
4d330820SGuray Ozen
4d330820SGuray Ozen        Matrix A(stage, ...)    # Find shared memory slot
4d330820SGuray Ozen        Matrix B(stage, ...)    # Find shared memory slot
4d330820SGuray Ozen        D += A @ B              # Multiply and accumulate
4d330820SGuray Ozen
4d330820SGuray Ozen        if(needLoad)            # Load next stage if needed
4d330820SGuray Ozen            tma_load(x, y, nextSlot, nextStage)
4d330820SGuray Ozen
4d330820SGuray Ozen    """
4d330820SGuray Ozen    ns = num_stages if num_stages == 1 else num_stages - 1
4d330820SGuray Ozen
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen    begin_b = num_stages * get_type_size(a_tma.tma_memref)
4d330820SGuray Ozen
4d330820SGuray Ozen    size_a = TILE_M * TILE_K * get_type_size(T.f16())
4d330820SGuray Ozen
4d330820SGuray Ozen    # Initialize A and B (input matrices) and C (accumulator)
4d330820SGuray Ozen    A = WGMMAMatrix(WGMMAType.Descriptor, [TILE_M, TILE_K], desc=a_tma)
4d330820SGuray Ozen    B = WGMMAMatrix(WGMMAType.Descriptor, [TILE_K, TILE_N], desc=b_tma)
4d330820SGuray Ozen    D = WGMMAMatrix(WGMMAType.Accumulator, shape=[TILE_M, TILE_N], ty=T.f32())
4d330820SGuray Ozen
4d330820SGuray Ozen    phase = const(False, ty=T.bool())
4d330820SGuray Ozen
4d330820SGuray Ozen    # Main Loop
4d330820SGuray Ozen    for_op = scf.ForOp(const(0), const(K // TILE_K), const(1), [D.acc_op, phase])
4d330820SGuray Ozen    with ir.InsertionPoint(for_op.body):
4d330820SGuray Ozen        phase = for_op.inner_iter_args[1]
4d330820SGuray Ozen        iv = for_op.induction_variable
4d330820SGuray Ozen        stage = iv % num_stages
4d330820SGuray Ozen
4d330820SGuray Ozen        # Wait for current stage
4d330820SGuray Ozen        mbar_group[stage].try_wait(phase=phase)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Find shared memory slot
4d330820SGuray Ozen        offset_a = stage * size_a
4d330820SGuray Ozen        offset_b = offset_a + begin_b
4d330820SGuray Ozen        a_smem = get_dynamic_shared_memory([TILE_M, TILE_K], T.f16(), offset_a)
4d330820SGuray Ozen        b_smem = get_dynamic_shared_memory([TILE_K, TILE_N], T.f16(), offset_b)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Iterate input matrices, update accumulator
4d330820SGuray Ozen        A.update_smem(a_smem)
4d330820SGuray Ozen        B.update_smem(b_smem)
4d330820SGuray Ozen        D.update_accumulator(for_op.inner_iter_args[0])
4d330820SGuray Ozen
4d330820SGuray Ozen        # Matrix Multiply
4d330820SGuray Ozen        D += A @ B
4d330820SGuray Ozen
4d330820SGuray Ozen        # Wait Tensor Core for single stage
4d330820SGuray Ozen        if num_stages == 1:
4d330820SGuray Ozen            nvvm.WgmmaWaitGroupSyncOp(0)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Load next stage
4d330820SGuray Ozen        pred = ((iv + ns) < const(K // TILE_K)) & (tidx == 0)
4d330820SGuray Ozen        nextStage = iv + ns
4d330820SGuray Ozen        nextSlot = nextStage % num_stages
4d330820SGuray Ozen        tma_load(mbar_group, a_tma, b_tma, nextSlot, nextStage, num_stages, pred)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Switch phase parity for the mbarrier
4d330820SGuray Ozen        newPhase = arith.select(
4d330820SGuray Ozen            stage == (num_stages - 1),
4d330820SGuray Ozen            (phase ^ const(True, ty=T.bool())),
4d330820SGuray Ozen            phase,
4d330820SGuray Ozen        )
4d330820SGuray Ozen        scf.yield_([D.acc_op, newPhase])
4d330820SGuray Ozen
4d330820SGuray Ozen    nvvm.WgmmaWaitGroupSyncOp(0)
4d330820SGuray Ozen
4d330820SGuray Ozen    D.update_accumulator(for_op.results[0])
4d330820SGuray Ozen    return D
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef epilogue(D: WGMMAMatrix, d_dev):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Epilogue of the GEMM kernel. It stores the fragmented registers to global memory.
4d330820SGuray Ozen
4d330820SGuray Ozen    MatrixAccumulator D               # Fragmented results
4d330820SGuray Ozen    store D -> Shared Memory          # Store Shared Memory
4d330820SGuray Ozen    Shared Memory -> Z[dimX][dimY]    # Store Shared Memory to Global Memory
4d330820SGuray Ozen
4d330820SGuray Ozen    """
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen    dimX, dimY = partition_shape()
4d330820SGuray Ozen
4d330820SGuray Ozen    d_smem = get_dynamic_shared_memory([TILE_M, TILE_N], T.f32())
4d330820SGuray Ozen    d_gmem = memref.subview(d_dev, [dimX, dimY], [TILE_M, TILE_N], [1, 1])
4d330820SGuray Ozen
4d330820SGuray Ozen    # Store (registers -> shared memory)
4d330820SGuray Ozen    D.store_accumulator(d_smem)
4d330820SGuray Ozen    gpu.barrier()
4d330820SGuray Ozen
4d330820SGuray Ozen    # Store (shared memory --> global memory)
4d330820SGuray Ozen    for i in scf.for_(0, TILE_M, 1):
4d330820SGuray Ozen        val = memref.load(d_smem, [i, tidx])
4d330820SGuray Ozen        memref.store(val, d_gmem, [i, tidx])
4d330820SGuray Ozen        scf.yield_([])
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen# The decorator generates
4d330820SGuray Ozen#   a -> memref<MxKxf16>
4d330820SGuray Ozen#   b -> memref<NxKf16>
4d330820SGuray Ozen#   d -> memref<MxNxf32>
4d330820SGuray Ozen@NVDSL.mlir_func
4d330820SGuray Ozendef gemm_multistage(a, b, d, num_stages):
*f8ff9094SGuray Ozen    token_ty = gpu.AsyncTokenType.get()
4d330820SGuray Ozen    t1 = gpu.wait(token_ty, [])
4d330820SGuray Ozen    a_dev, t2 = gpu.alloc(a.type, token_ty, [t1], [], [])
4d330820SGuray Ozen    b_dev, t3 = gpu.alloc(b.type, token_ty, [t2], [], [])
4d330820SGuray Ozen    d_dev, t4 = gpu.alloc(d.type, token_ty, [t3], [], [])
4d330820SGuray Ozen    t5 = gpu.memcpy(token_ty, [t4], a_dev, a)
4d330820SGuray Ozen    t6 = gpu.memcpy(token_ty, [t5], b_dev, b)
4d330820SGuray Ozen    t7 = gpu.wait(token_ty, [t6])
4d330820SGuray Ozen
4d330820SGuray Ozen    sw = nvgpu.TensorMapSwizzleKind.SWIZZLE_128B
4d330820SGuray Ozen    a_tma = TMA([128, 64], a.type, swizzle=sw)
4d330820SGuray Ozen    b_tma = TMA([64, 64], b.type, swizzle=sw)
4d330820SGuray Ozen    a_tma.create_descriptor(a_dev)
4d330820SGuray Ozen    b_tma.create_descriptor(b_dev)
4d330820SGuray Ozen
4d330820SGuray Ozen    grid = [(M // TILE_M), (N // TILE_N), 1]
4d330820SGuray Ozen    block = [128, 1, 1]
4d330820SGuray Ozen
4d330820SGuray Ozen    size_a = get_type_size(a.type.element_type) * TILE_M * TILE_K
4d330820SGuray Ozen    size_b = get_type_size(b.type.element_type) * TILE_N * TILE_K
4d330820SGuray Ozen    smem_size_in_bytes = (size_a + size_b) * num_stages
4d330820SGuray Ozen
4d330820SGuray Ozen    @NVDSL.mlir_gpu_launch(grid=grid, block=block, smem=smem_size_in_bytes)
4d330820SGuray Ozen    def gemm_multistage_kernel():
4d330820SGuray Ozen        # Initialize mbarriers and prefetch TMA descriptors
4d330820SGuray Ozen        mbar_group = initialize(a_tma, b_tma, num_stages)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Fill the pipeline stages
4d330820SGuray Ozen        prologue(mbar_group, a_tma, b_tma, num_stages)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Main loop
4d330820SGuray Ozen        D = mainloop(mbar_group, a_tma, b_tma, num_stages)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Store registers to global memory
4d330820SGuray Ozen        epilogue(D, d_dev)
4d330820SGuray Ozen
4d330820SGuray Ozen    gemm_multistage_kernel()
4d330820SGuray Ozen
4d330820SGuray Ozen    t8 = gpu.memcpy(token_ty, [t7], d, d_dev)
4d330820SGuray Ozen    gpu.wait(None, [t8])
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen# Python pass arguments to MLIR
4d330820SGuray OzenN = 256
4d330820SGuray OzenM = 512
4d330820SGuray OzenK = 1024
4d330820SGuray OzenTILE_M = 128
4d330820SGuray OzenTILE_N = 128
4d330820SGuray OzenTILE_K = 64
4d330820SGuray Ozena = np.random.randn(M, K).astype(np.float16)
4d330820SGuray Ozenb = np.random.randn(K, N).astype(np.float16)
4d330820SGuray Ozend = np.zeros((M, N), np.float32)
4d330820SGuray Ozen
4d330820SGuray Ozengemm_multistage(a, b, d, num_stages=7)
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen# Verify MLIR with reference computation
4d330820SGuray Ozenref_d = a.astype(np.float16) @ b.astype(np.float16)
4d330820SGuray Ozennp.testing.assert_allclose(d, ref_d, rtol=5e-03, atol=1e-01)
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozenprint("PASS")
4d330820SGuray Ozen# CHECK-NOT: Mismatched elements