Examples/NVGPU/Ch5.py

4d330820SGuray Ozen# RUN: env SUPPORT_LIB=%mlir_cuda_runtime \
4d330820SGuray Ozen# RUN:   %PYTHON %s | FileCheck %s
4d330820SGuray Ozen
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen#  Chapter 5 : Warp Specialized GEMM with Tensor Core
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen#
4d330820SGuray Ozen# This program demonstrates a GEMM operation for `f32+=f16*f16`, utilizing the
4d330820SGuray Ozen# Warp Specialized method with a tile size of 128x128x64. The code completely
4d330820SGuray Ozen# parallelizes the two outermost loops into thread blocks. It launches two Warp
4d330820SGuray Ozen# Groups (256 threads in total): one for the producer and the other for the consumer.
4d330820SGuray Ozen# Each group takes a different control-flow. The producer thread group is responsible
4d330820SGuray Ozen# for loading data into shared memory, while the consumer group executes the Tensor
4d330820SGuray Ozen# Core GEMM operation and epilogue.
4d330820SGuray Ozen#
4d330820SGuray Ozen#  for ti in range(M//128):  # -> blockIdx.x
4d330820SGuray Ozen#   for tj in range(N//128): # -> blockIdx.y
4d330820SGuray Ozen#    with wg_producer:
4d330820SGuray Ozen#     for tk in range(K//64):
4d330820SGuray Ozen#        TMA_128x64_64x128...
4d330820SGuray Ozen#    with wg_consumer:
4d330820SGuray Ozen#     for tk in range(K//64):
4d330820SGuray Ozen#        MMA_128x128x64...
4d330820SGuray Ozen#     Epilogue..
4d330820SGuray Ozen#
4d330820SGuray Ozen# This chapter demonstrates:
4d330820SGuray Ozen#  2 WG (warpgroups)
4d330820SGuray Ozen#    Producer:
4d330820SGuray Ozen#       2.1.1 Wait MMA Barrier
4d330820SGuray Ozen#       2.1.1 Load TMA with TMA barrier
4d330820SGuray Ozen#       2.1.1 Arrive TMA barrier with txcount
4d330820SGuray Ozen#    Consumer:
4d330820SGuray Ozen#       Loop
4d330820SGuray Ozen#           Wait TMA barrier
4d330820SGuray Ozen#           Performs Tensor Core GEMM 64x128x64 by warpgroup
4d330820SGuray Ozen#           Arrive MMA Barrier
4d330820SGuray Ozen#       Epilogue
4d330820SGuray Ozen#           Store fragmented registers to shared memory
4d330820SGuray Ozen#           Store shared memory to global
4d330820SGuray Ozen#
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozenfrom mlir import ir
4d330820SGuray Ozenfrom mlir.dialects import gpu, scf, nvgpu, nvvm
4d330820SGuray Ozenfrom mlir.extras import types as T
4d330820SGuray Ozenfrom tools.nvdsl import *
4d330820SGuray Ozenimport numpy as np
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef partition_shape():
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Calculate the partition shape based on the block IDs.
4d330820SGuray Ozen
4d330820SGuray Ozen    It parallelizes the two outermost loops into thread blocks.
4d330820SGuray Ozen    for ti in range(M//128):    # -> blockIdx.x
4d330820SGuray Ozen     for tj in range(N//128):   # -> blockIdx.y
4d330820SGuray Ozen      D = 0
4d330820SGuray Ozen      for tk in range(K//64):
4d330820SGuray Ozen       for i in range(128):
4d330820SGuray Ozen        for j in range(128):
4d330820SGuray Ozen         for k in range(64):
4d330820SGuray Ozen           FMA
4d330820SGuray Ozen
4d330820SGuray Ozen    Returns:
4d330820SGuray Ozen        dimX (int): Dimension along the x-axis.
4d330820SGuray Ozen        dimY (int): Dimension along the y-axis.
4d330820SGuray Ozen    """
4d330820SGuray Ozen    bidx = gpu.block_id(gpu.Dimension.x)
4d330820SGuray Ozen    bidy = gpu.block_id(gpu.Dimension.y)
4d330820SGuray Ozen    dimX = bidx * TILE_M
4d330820SGuray Ozen    dimY = bidy * TILE_N
4d330820SGuray Ozen    return dimX, dimY
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef tma_load(
4d330820SGuray Ozen    mbar_group: Mbarriers,
4d330820SGuray Ozen    a_tma: TMA,
4d330820SGuray Ozen    b_tma: TMA,
4d330820SGuray Ozen    slot,
4d330820SGuray Ozen    stage,
4d330820SGuray Ozen    num_stages,
4d330820SGuray Ozen    p=None,
4d330820SGuray Ozen):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    TMA loads two input matrices from global memory to shared memory. It performs the following operations:
4d330820SGuray Ozen
4d330820SGuray Ozen       - tma.load a_shared_memory[off_x]  at coordinate [x, z]      (Loads 128x64)
4d330820SGuray Ozen       - tma.load b_shared_memory[off_y1] at coordinate [y, x]      (Loads 64x64)
4d330820SGuray Ozen       - tma.load b_shared_memory[off_y2] at coordinate [y + 64, x] (Loads 64x64)
4d330820SGuray Ozen
4d330820SGuray Ozen       mbarrier.arrive ta_count = 128x64x2x4
4d330820SGuray Ozen    """
4d330820SGuray Ozen    dimX, dimY = partition_shape()
4d330820SGuray Ozen
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen    begin_b = num_stages * get_type_size(a_tma.tma_memref)
4d330820SGuray Ozen    size_tma_a = get_type_size(a_tma.tma_memref)
4d330820SGuray Ozen    size_tma_b = get_type_size(b_tma.tma_memref)
4d330820SGuray Ozen    ta_count = size_tma_a + (size_tma_b * 2)
4d330820SGuray Ozen
4d330820SGuray Ozen    off_a = slot * size_tma_a
4d330820SGuray Ozen    off_b = (slot * size_tma_a) + begin_b
4d330820SGuray Ozen    off_b2 = off_b + size_tma_b
4d330820SGuray Ozen    a_elem_ty = a_tma.tma_memref.element_type
4d330820SGuray Ozen    b_elem_ty = b_tma.tma_memref.element_type
4d330820SGuray Ozen    a = get_dynamic_shared_memory(a_tma.tma_memref.shape, a_elem_ty, off_a)
4d330820SGuray Ozen    b1 = get_dynamic_shared_memory(b_tma.tma_memref.shape, b_elem_ty, off_b)
4d330820SGuray Ozen    b2 = get_dynamic_shared_memory(b_tma.tma_memref.shape, b_elem_ty, off_b2)
4d330820SGuray Ozen
4d330820SGuray Ozen    mbar_group[slot].arrive(ta_count, predicate=p)
4d330820SGuray Ozen    p = (tidx % WARP_GROUP_SIZE) == 0
4d330820SGuray Ozen    c1 = stage * 64
4d330820SGuray Ozen    a_tma.load(a, mbar_group[slot], coords=[c1, dimX], predicate=p)
4d330820SGuray Ozen    b_tma.load(b1, mbar_group[slot], coords=[dimY, c1], predicate=p)
4d330820SGuray Ozen    b_tma.load(b2, mbar_group[slot], coords=[dimY + 64, c1], predicate=p)
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef initialize(a_tma: TMA, b_tma: TMA, num_stages):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Initialize mbarriers and prefetch TMA descriptors.
4d330820SGuray Ozen    """
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen    mbar_group_tma = Mbarriers(number_of_barriers=num_stages)
4d330820SGuray Ozen    mbar_group_mma = Mbarriers(number_of_barriers=num_stages)
4d330820SGuray Ozen    isThread0 = tidx == const(0)
4d330820SGuray Ozen    with ir.InsertionPoint(scf.IfOp(isThread0).then_block):
4d330820SGuray Ozen        for i in scf.for_(0, num_stages, 1):
4d330820SGuray Ozen            mbar_group_tma[i].init(1)
4d330820SGuray Ozen            mbar_group_mma[i].init(1)
4d330820SGuray Ozen            scf.yield_([])
4d330820SGuray Ozen        a_tma.prefetch()
4d330820SGuray Ozen        b_tma.prefetch()
4d330820SGuray Ozen        scf.yield_([])
4d330820SGuray Ozen
4d330820SGuray Ozen    return mbar_group_tma, mbar_group_mma
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef switch_phase(stage, phase, num_stages):
4d330820SGuray Ozen    p = stage == (num_stages - 1)
4d330820SGuray Ozen    phase = arith.select(
4d330820SGuray Ozen        p,
4d330820SGuray Ozen        (phase ^ const(True, ty=T.bool())),
4d330820SGuray Ozen        phase,
4d330820SGuray Ozen    )
4d330820SGuray Ozen    return phase
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef producer_loop(
4d330820SGuray Ozen    mbar_tma: Mbarriers,
4d330820SGuray Ozen    mbar_mma: Mbarriers,
4d330820SGuray Ozen    a_tma: TMA,
4d330820SGuray Ozen    b_tma: TMA,
4d330820SGuray Ozen    wg_me: Warpgroup,
4d330820SGuray Ozen    num_stages,
4d330820SGuray Ozen):
4d330820SGuray Ozen    phase = const(True, ty=T.bool())
4d330820SGuray Ozen
4d330820SGuray Ozen    for iv, phase in scf.for_(0, (K // TILE_K), 1, [phase]):
4d330820SGuray Ozen        stage = iv % num_stages
4d330820SGuray Ozen        # Wait MMA to be done
4d330820SGuray Ozen        mbar_mma[stage].try_wait(phase)
4d330820SGuray Ozen        # New phase for mbarrier
4d330820SGuray Ozen        phase = switch_phase(stage, phase, num_stages)
4d330820SGuray Ozen        # TMA Load
4d330820SGuray Ozen        tma_load(mbar_tma, a_tma, b_tma, stage, iv, num_stages, wg_me.is_wg_primary)
4d330820SGuray Ozen        scf.yield_([phase])
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef consumer_loop(
4d330820SGuray Ozen    mbar_tma: Mbarriers,
4d330820SGuray Ozen    mbar_mma: Mbarriers,
4d330820SGuray Ozen    a_tma: TMA,
4d330820SGuray Ozen    b_tma: TMA,
4d330820SGuray Ozen    wg_me: Warpgroup,
4d330820SGuray Ozen    num_stages,
4d330820SGuray Ozen):
4d330820SGuray Ozen    begin_b = num_stages * get_type_size(a_tma.tma_memref)
4d330820SGuray Ozen
4d330820SGuray Ozen    size_a = TILE_M * TILE_K * get_type_size(T.f16())
4d330820SGuray Ozen
4d330820SGuray Ozen    phase = const(False, ty=T.bool())
4d330820SGuray Ozen    A = WGMMAMatrix(WGMMAType.Descriptor, [TILE_M, TILE_K], desc=a_tma)
4d330820SGuray Ozen    B = WGMMAMatrix(WGMMAType.Descriptor, [TILE_K, TILE_N], desc=b_tma)
4d330820SGuray Ozen    D = WGMMAMatrix(WGMMAType.Accumulator, shape=[TILE_M, TILE_N], ty=T.f32())
4d330820SGuray Ozen
4d330820SGuray Ozen    for_op = scf.ForOp(const(0), const(K // TILE_K), const(1), [D.acc_op, phase])
4d330820SGuray Ozen    with ir.InsertionPoint(for_op.body):
4d330820SGuray Ozen        phase = for_op.inner_iter_args[1]
4d330820SGuray Ozen        iv = for_op.induction_variable
4d330820SGuray Ozen        stage = iv % num_stages
4d330820SGuray Ozen
4d330820SGuray Ozen        # Wait TMA for current stage
4d330820SGuray Ozen        mbar_tma[stage].try_wait(phase)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Find shared memory slot
4d330820SGuray Ozen        offset_a = stage * size_a
4d330820SGuray Ozen        offset_b = offset_a + begin_b
4d330820SGuray Ozen        a_smem = get_dynamic_shared_memory([TILE_M, TILE_K], T.f16(), offset_a)
4d330820SGuray Ozen        b_smem = get_dynamic_shared_memory([TILE_K, TILE_N], T.f16(), offset_b)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Iterate input matrices, update accumulator
4d330820SGuray Ozen        A.update_smem(a_smem)
4d330820SGuray Ozen        B.update_smem(b_smem)
4d330820SGuray Ozen        D.update_accumulator(for_op.inner_iter_args[0])
4d330820SGuray Ozen
4d330820SGuray Ozen        # Matrix Multiply
4d330820SGuray Ozen        D += A @ B
4d330820SGuray Ozen
4d330820SGuray Ozen        # MMA Barrier Arrive
4d330820SGuray Ozen        p_arrive = (iv > 0) & wg_me.is_wg_primary
4d330820SGuray Ozen        with ir.InsertionPoint(scf.IfOp(p_arrive).then_block):
4d330820SGuray Ozen            barId = arith.select((stage == 0), const(num_stages - 1), (stage - 1))
4d330820SGuray Ozen            mbar_mma[barId].arrive()
4d330820SGuray Ozen            scf.yield_([])
4d330820SGuray Ozen
4d330820SGuray Ozen        phase = switch_phase(stage, phase, num_stages)
4d330820SGuray Ozen        scf.yield_([D.acc_op, phase])
4d330820SGuray Ozen
4d330820SGuray Ozen    nvvm.WgmmaWaitGroupSyncOp(0)
4d330820SGuray Ozen    D.update_accumulator(for_op.results[0])
4d330820SGuray Ozen    return D
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozendef epilogue(D: WGMMAMatrix, d_dev):
4d330820SGuray Ozen    """
4d330820SGuray Ozen    Epilogue of the GEMM kernel. It stores the fragmented registers to global memory.
4d330820SGuray Ozen
4d330820SGuray Ozen    MatrixAccumulator D               # Fragmented results
4d330820SGuray Ozen    store D -> Shared Memory          # Store Shared Memory
4d330820SGuray Ozen    Shared Memory -> Z[dimX][dimY]    # Store Shared Memory to Global Memory
4d330820SGuray Ozen
4d330820SGuray Ozen    """
4d330820SGuray Ozen    tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen    dimX, dimY = partition_shape()
4d330820SGuray Ozen    # s = tidx - WARP_GROUP_SIZE
4d330820SGuray Ozen    # debug_print("[Epilogue] store to global memory @ s={}", s)
4d330820SGuray Ozen
4d330820SGuray Ozen    d_smem = get_dynamic_shared_memory([TILE_M, TILE_N], T.f32())
4d330820SGuray Ozen    d_gmem = memref.subview(d_dev, [dimX, dimY], [TILE_M, TILE_N], [1, 1])
4d330820SGuray Ozen
4d330820SGuray Ozen    # Store (registers -> shared memory)
4d330820SGuray Ozen    D.store_accumulator(d_smem)
4d330820SGuray Ozen    gpu.barrier()
4d330820SGuray Ozen
4d330820SGuray Ozen    # Store (shared memory --> global memory)
4d330820SGuray Ozen    for i in scf.for_(0, TILE_M, 1):
4d330820SGuray Ozen        val = memref.load(d_smem, [i, tidx])
4d330820SGuray Ozen        memref.store(val, d_gmem, [i, tidx])
4d330820SGuray Ozen        scf.yield_([])
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen@NVDSL.mlir_func
4d330820SGuray Ozendef gemm_warp_specialized(a, b, d, num_stages):
*f8ff9094SGuray Ozen    token_ty = gpu.AsyncTokenType.get()
4d330820SGuray Ozen    t1 = gpu.wait(token_ty, [])
4d330820SGuray Ozen    a_dev, t2 = gpu.alloc(a.type, token_ty, [t1], [], [])
4d330820SGuray Ozen    b_dev, t3 = gpu.alloc(b.type, token_ty, [t2], [], [])
4d330820SGuray Ozen    d_dev, t4 = gpu.alloc(d.type, token_ty, [t3], [], [])
4d330820SGuray Ozen    t5 = gpu.memcpy(token_ty, [t4], a_dev, a)
4d330820SGuray Ozen    t6 = gpu.memcpy(token_ty, [t5], b_dev, b)
4d330820SGuray Ozen    t7 = gpu.wait(token_ty, [t6])
4d330820SGuray Ozen
4d330820SGuray Ozen    sw = nvgpu.TensorMapSwizzleKind.SWIZZLE_128B
4d330820SGuray Ozen    a_tma = TMA([128, 64], a.type, swizzle=sw)
4d330820SGuray Ozen    b_tma = TMA([64, 64], b.type, swizzle=sw)
4d330820SGuray Ozen    a_tma.create_descriptor(a_dev)
4d330820SGuray Ozen    b_tma.create_descriptor(b_dev)
4d330820SGuray Ozen
4d330820SGuray Ozen    grid = [(M // TILE_M), (N // TILE_N), 1]
4d330820SGuray Ozen    block = [256, 1, 1]
4d330820SGuray Ozen
4d330820SGuray Ozen    size_a = get_type_size(a.type.element_type) * TILE_M * TILE_K
4d330820SGuray Ozen    size_b = get_type_size(b.type.element_type) * TILE_N * TILE_K
4d330820SGuray Ozen    smem_size_in_bytes = (size_a + size_b) * num_stages
4d330820SGuray Ozen
4d330820SGuray Ozen    @NVDSL.mlir_gpu_launch(grid=grid, block=block, smem=smem_size_in_bytes)
4d330820SGuray Ozen    def gemm_warp_specialized_kernel():
4d330820SGuray Ozen        # Init Warpgroups
4d330820SGuray Ozen        wg_producer = Warpgroup(primary_thread=128, register_size=40)
4d330820SGuray Ozen        wg_consumer = Warpgroup(primary_thread=0, register_size=232)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Initialize mbarriers and prefetch TMA descriptors
4d330820SGuray Ozen        mbar_mma, mbar_tma = initialize(a_tma, b_tma, num_stages)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Producer performs TMA
4d330820SGuray Ozen        with wg_producer:
4d330820SGuray Ozen            producer_loop(mbar_tma, mbar_mma, a_tma, b_tma, wg_producer, num_stages)
4d330820SGuray Ozen
4d330820SGuray Ozen        # Consumer performs MMA/Tensor Core
4d330820SGuray Ozen        with wg_consumer:
4d330820SGuray Ozen            D = consumer_loop(mbar_tma, mbar_mma, a_tma, b_tma, wg_consumer, num_stages)
4d330820SGuray Ozen            epilogue(D, d_dev)
4d330820SGuray Ozen
4d330820SGuray Ozen    gemm_warp_specialized_kernel()
4d330820SGuray Ozen
4d330820SGuray Ozen    t8 = gpu.memcpy(token_ty, [t7], d, d_dev)
4d330820SGuray Ozen    gpu.wait(None, [t8])
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen# Python pass arguments to MLIR
4d330820SGuray OzenN = 256
4d330820SGuray OzenM = 512
4d330820SGuray OzenK = 1024
4d330820SGuray OzenTILE_M = 128
4d330820SGuray OzenTILE_N = 128
4d330820SGuray OzenTILE_K = 64
4d330820SGuray Ozena = np.random.randn(M, K).astype(np.float16)
4d330820SGuray Ozenb = np.random.randn(K, N).astype(np.float16)
4d330820SGuray Ozend = np.zeros((M, N), np.float32)
4d330820SGuray Ozen
4d330820SGuray Ozengemm_warp_specialized(a, b, d, num_stages=7)
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen# Verify MLIR with reference computation
4d330820SGuray Ozenref_d = a.astype(np.float16) @ b.astype(np.float16)
4d330820SGuray Ozennp.testing.assert_allclose(d, ref_d, rtol=5e-03, atol=1e-01)
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozenprint("PASS")
4d330820SGuray Ozen# CHECK-NOT: Mismatched elements