sm90/python/matmul.py

*d95e6d02SGuray Ozen# RUN: env SUPPORT_LIB=%mlir_cuda_runtime \
*d95e6d02SGuray Ozen# RUN:   %PYTHON %s | FileCheck %s
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen# ===--- GEMM Hopper Tensor Core Integration Test ---===
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# This test aims to validate the correctness of the supported GEMM kernels in
*d95e6d02SGuray Ozen# NVGPU dialects, with current support for Multistage and Warp Specialization
*d95e6d02SGuray Ozen# kernels.
*d95e6d02SGuray Ozen# The test constructs and metaprograms IR using Python bindings, allowing
*d95e6d02SGuray Ozen# generic IR building. This flexibility enables changes to the shape,
*d95e6d02SGuray Ozen# tile size, or data type of the GEMM for testing purposes.
*d95e6d02SGuray Ozen# The entry function is `matmul`, where one can specify GEMM shape, tile size,
*d95e6d02SGuray Ozen# data type, GEMM algorithm (Multistage or Warp Specialization), and the maximum
*d95e6d02SGuray Ozen# number of stages.
*d95e6d02SGuray Ozen# Verification is done via numpy's matmul operation.
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# Example:
*d95e6d02SGuray Ozen# matmul(input_type=np.float16,                # input types
*d95e6d02SGuray Ozen#        output_type=np.float32,               # output type
*d95e6d02SGuray Ozen#        M=4096, N=4096, K=4096,               # Shape
*d95e6d02SGuray Ozen#        BLOCK_M=128, BLOCK_N=128, BLOCK_K=64, # Tile Size
*d95e6d02SGuray Ozen#        use_warp_specialization=True,         # Enable Warp Specialization
*d95e6d02SGuray Ozen#        max_num_stages=3)                     # Number of stages in shared memory
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# ===--- Parallelism Across CTAs  ---===
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# GEMM includes three loops defining the shape of the GEMM, specified in the
*d95e6d02SGuray Ozen# `matmul` function.
*d95e6d02SGuray Ozen# The program builds IR using the following loop structure, tiling the loops
*d95e6d02SGuray Ozen# with the given tile size and parallelizing the two outermost loops into the
*d95e6d02SGuray Ozen# first and second dimensions of CTAs.
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# for(bi = 0; i < M; i += BLOCK_M)          # parallelize across blockIdx.x
*d95e6d02SGuray Ozen#     for(bj = 0; j < N; j += BLOCK_N)      # parallelize across blockIdx.y
*d95e6d02SGuray Ozen#         for(bk = 0; k < K; K += BLOCK_K)
*d95e6d02SGuray Ozen#             for(i = bi; i < (bi + BLOCK_M); ++i)
*d95e6d02SGuray Ozen#                 for(j = bj; j < (bj + BLOCK_N); ++j)
*d95e6d02SGuray Ozen#                     for(k = bk; k < (bk + BLOCK_K); ++k)
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# ===--- Multistage Kernel ---===
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# This kernel launches a single warp group (128 threads). The primary thread
*d95e6d02SGuray Ozen# (pthread) requests load from TMA. Threads collectively wait for the data and
*d95e6d02SGuray Ozen# perform mma operations. After completing the shape, threads together store
*d95e6d02SGuray Ozen# first fragmented registers to shared memory, then from shared memory to global
*d95e6d02SGuray Ozen# memory; this part is called the epilogue.
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# Execution Timeline of Multistage Kernel with 3 stages:
*d95e6d02SGuray Ozen# +-------+----------------+--------------------+--------------------+--------------------+-----+-----------------------+
*d95e6d02SGuray Ozen# |       |Prologue ---->   |MainLoop ---->                                                                  |Epilogue  |
*d95e6d02SGuray Ozen# +-------+----------------+--------------------+--------------------+--------------------+-----+-----------------------+
*d95e6d02SGuray Ozen# |pthread|[tma-0,1,2]     |[wait-0][mma][tma-2]|[wait-1][mma][tma-0]|[wait-2][mma][tma-1]| ... | [mma-wait] |[epilogue]|
*d95e6d02SGuray Ozen# |wgroup | ........       |[wait-0][mma]       |[wait-1][mma]       |[wait-2][mma]       | ... | [mma-wait] |[epilogue]|
*d95e6d02SGuray Ozen# +-------+----------------+--------------------+--------------------+--------------------+-----+-----------------------+
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# ===--- Warp Specialization Kernel  ---===
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# This kernel launches 2 warp groups (2x128 threads) per CTA, specializing one
*d95e6d02SGuray Ozen# as `producer warp group` and another as `consumer warp group`. The
*d95e6d02SGuray Ozen# `producer warp group` is responsible for requesting TMA load, while the
*d95e6d02SGuray Ozen# `consumer warp group` performs the mma operation. The epilogue section is
*d95e6d02SGuray Ozen# handled by the `consumer warp group` as its threads own the fragmented registers.
*d95e6d02SGuray Ozen#
*d95e6d02SGuray Ozen# Execution Timeline of Warp Specialization Kernel with 2 stages:
*d95e6d02SGuray Ozen# +--------+--------+---------+---------+---------+-----------------------+---+--------------+-----------------+
*d95e6d02SGuray Ozen# |        |MainLoop ---->                                                    | 1st Epilogue | 2nd Epilogue    |
*d95e6d02SGuray Ozen# +--------+--------+---------+---------+---------+-----------------------+---+--------------+-----------------+
*d95e6d02SGuray Ozen# |pthread1|[tma-0] | [tma-1] | [tma-0] | [tma-1] | ..........................| ...........  | [shmem->global] |
*d95e6d02SGuray Ozen# |wgroup1 | .......|         |         |         |                           |              | [shmem->global] |
*d95e6d02SGuray Ozen# +--------+--------+---------+---------+---------+-----------------------+---+--------------+-----------------+
*d95e6d02SGuray Ozen# |wgroup2 |[wait-0][mma], [wait-1][mma], [wait-0][mma], [wait-1][mma], ......| [reg->shmem] | [shmem->global]|
*d95e6d02SGuray Ozen# +--------+--------+---------+---------+---------+-----------------------+---+--------------+-----------------+
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozenimport errno
*d95e6d02SGuray Ozenimport numpy as np
*d95e6d02SGuray Ozenimport subprocess
*d95e6d02SGuray Ozenimport ctypes
*d95e6d02SGuray Ozenfrom tools import nvgpucompiler
*d95e6d02SGuray Ozenfrom tools import matmulBuilder
*d95e6d02SGuray Ozenimport contextlib
*d95e6d02SGuray Ozenimport os
*d95e6d02SGuray Ozenimport sys
*d95e6d02SGuray Ozenimport pathlib
*d95e6d02SGuray Ozenimport ctypes
*d95e6d02SGuray Ozenfrom mlir import runtime as rt
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozendef generate_matmul(
*d95e6d02SGuray Ozen    input_type=np.float16,
*d95e6d02SGuray Ozen    output_type=np.float32,
*d95e6d02SGuray Ozen    M=4096,
*d95e6d02SGuray Ozen    N=4096,
*d95e6d02SGuray Ozen    K=4096,
*d95e6d02SGuray Ozen    BLOCK_M=128,
*d95e6d02SGuray Ozen    BLOCK_N=128,
*d95e6d02SGuray Ozen    BLOCK_K=64,
*d95e6d02SGuray Ozen    use_warp_specialization=True,
*d95e6d02SGuray Ozen    saveIR=False,
*d95e6d02SGuray Ozen    max_num_stages=3,
*d95e6d02SGuray Ozen    options=f"cubin-chip=sm_90a cubin-features=+ptx80 opt-level=3",
*d95e6d02SGuray Ozen):
*d95e6d02SGuray Ozen    with matmulBuilder.ir.Context() as ctx, matmulBuilder.ir.Location.unknown():
*d95e6d02SGuray Ozen        if use_warp_specialization:
*d95e6d02SGuray Ozen            mlir_nvgpu_module = matmulBuilder.generate_matmul_ws(
*d95e6d02SGuray Ozen                input_type,
*d95e6d02SGuray Ozen                output_type,
*d95e6d02SGuray Ozen                M,
*d95e6d02SGuray Ozen                N,
*d95e6d02SGuray Ozen                K,
*d95e6d02SGuray Ozen                BLOCK_M,
*d95e6d02SGuray Ozen                BLOCK_N,
*d95e6d02SGuray Ozen                BLOCK_K,
*d95e6d02SGuray Ozen                max_num_stages,
*d95e6d02SGuray Ozen            )
*d95e6d02SGuray Ozen        else:
*d95e6d02SGuray Ozen            mlir_nvgpu_module = matmulBuilder.generate_matmul_multistage(
*d95e6d02SGuray Ozen                input_type,
*d95e6d02SGuray Ozen                output_type,
*d95e6d02SGuray Ozen                M,
*d95e6d02SGuray Ozen                N,
*d95e6d02SGuray Ozen                K,
*d95e6d02SGuray Ozen                BLOCK_M,
*d95e6d02SGuray Ozen                BLOCK_N,
*d95e6d02SGuray Ozen                BLOCK_K,
*d95e6d02SGuray Ozen                max_num_stages,
*d95e6d02SGuray Ozen            )
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen        mlir_nvgpu_module.operation.verify()
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen        # Save generated IR
*d95e6d02SGuray Ozen        if saveIR:
*d95e6d02SGuray Ozen            # print(mlir_nvgpu_module)
*d95e6d02SGuray Ozen            original_stdout = sys.stdout
*d95e6d02SGuray Ozen            with open("gemm.mlir", "w") as f:
*d95e6d02SGuray Ozen                sys.stdout = f
*d95e6d02SGuray Ozen                print(mlir_nvgpu_module)
*d95e6d02SGuray Ozen                sys.stdout = original_stdout
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen        # Get compiler
*d95e6d02SGuray Ozen        support_lib = os.getenv("SUPPORT_LIB")
*d95e6d02SGuray Ozen        if not os.path.exists(support_lib):
*d95e6d02SGuray Ozen            raise FileNotFoundError(
*d95e6d02SGuray Ozen                errno.ENOENT, os.strerror(errno.ENOENT), support_lib
*d95e6d02SGuray Ozen            )
*d95e6d02SGuray Ozen        compiler = nvgpucompiler.NvgpuCompiler(
*d95e6d02SGuray Ozen            options, opt_level=3, shared_libs=[support_lib]
*d95e6d02SGuray Ozen        )
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen        # Compile
*d95e6d02SGuray Ozen        engine = compiler.compile_and_jit(mlir_nvgpu_module)
*d95e6d02SGuray Ozen        return engine
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozendef matmul(
*d95e6d02SGuray Ozen    input_type=np.float16,
*d95e6d02SGuray Ozen    output_type=np.float32,
*d95e6d02SGuray Ozen    M=128,
*d95e6d02SGuray Ozen    N=128,
*d95e6d02SGuray Ozen    K=128,
*d95e6d02SGuray Ozen    BLOCK_M=128,
*d95e6d02SGuray Ozen    BLOCK_N=128,
*d95e6d02SGuray Ozen    BLOCK_K=64,
*d95e6d02SGuray Ozen    use_warp_specialization=True,
*d95e6d02SGuray Ozen    saveIR=False,
*d95e6d02SGuray Ozen    max_num_stages=3,
*d95e6d02SGuray Ozen    print_results=False,
*d95e6d02SGuray Ozen    no_verify=False,
*d95e6d02SGuray Ozen):
*d95e6d02SGuray Ozen    # Print the configuration
*d95e6d02SGuray Ozen    required_stages = (M * K + K * N) // (BLOCK_M * BLOCK_K + BLOCK_K * BLOCK_N)
*d95e6d02SGuray Ozen    num_stages = min(required_stages, max_num_stages)
*d95e6d02SGuray Ozen    ity = "f16" if input_type == np.float16 else "f32"
*d95e6d02SGuray Ozen    oty = "f16" if output_type == np.float16 else "f32"
*d95e6d02SGuray Ozen    gemmty = "Warp specialization" if use_warp_specialization else "Multistage"
*d95e6d02SGuray Ozen    print(
*d95e6d02SGuray Ozen        "===-- Running GEMM "
*d95e6d02SGuray Ozen        + gemmty
*d95e6d02SGuray Ozen        + " "
*d95e6d02SGuray Ozen        + oty
*d95e6d02SGuray Ozen        + " += "
*d95e6d02SGuray Ozen        + ity
*d95e6d02SGuray Ozen        + " * "
*d95e6d02SGuray Ozen        + ity
*d95e6d02SGuray Ozen        + ", Size "
*d95e6d02SGuray Ozen        + str(M)
*d95e6d02SGuray Ozen        + "x"
*d95e6d02SGuray Ozen        + str(N)
*d95e6d02SGuray Ozen        + "x"
*d95e6d02SGuray Ozen        + str(K)
*d95e6d02SGuray Ozen        + ", Tile "
*d95e6d02SGuray Ozen        + str(BLOCK_M)
*d95e6d02SGuray Ozen        + "x"
*d95e6d02SGuray Ozen        + str(BLOCK_N)
*d95e6d02SGuray Ozen        + "x"
*d95e6d02SGuray Ozen        + str(BLOCK_K)
*d95e6d02SGuray Ozen        + ", stages "
*d95e6d02SGuray Ozen        + str(num_stages)
*d95e6d02SGuray Ozen        + " --==="
*d95e6d02SGuray Ozen    )
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen    # Build IR and compile
*d95e6d02SGuray Ozen    engine = generate_matmul(
*d95e6d02SGuray Ozen        input_type,
*d95e6d02SGuray Ozen        output_type,
*d95e6d02SGuray Ozen        M,
*d95e6d02SGuray Ozen        N,
*d95e6d02SGuray Ozen        K,
*d95e6d02SGuray Ozen        BLOCK_M,
*d95e6d02SGuray Ozen        BLOCK_N,
*d95e6d02SGuray Ozen        BLOCK_K,
*d95e6d02SGuray Ozen        use_warp_specialization,
*d95e6d02SGuray Ozen        saveIR,
*d95e6d02SGuray Ozen        num_stages,
*d95e6d02SGuray Ozen    )
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen    # Allocate matrices and invoke the matmul
*d95e6d02SGuray Ozen    c = np.zeros((M, N), output_type)
*d95e6d02SGuray Ozen    a = np.random.randn(M, K).astype(input_type)
*d95e6d02SGuray Ozen    b = np.random.randn(K, N).astype(input_type)
*d95e6d02SGuray Ozen    mem_a = ctypes.pointer(ctypes.pointer(rt.get_ranked_memref_descriptor(a)))
*d95e6d02SGuray Ozen    mem_b = ctypes.pointer(ctypes.pointer(rt.get_ranked_memref_descriptor(b)))
*d95e6d02SGuray Ozen    mem_c = ctypes.pointer(ctypes.pointer(rt.get_ranked_memref_descriptor(c)))
*d95e6d02SGuray Ozen    kernelName = matmulBuilder.make_kernel_name(
*d95e6d02SGuray Ozen        input_type,
*d95e6d02SGuray Ozen        output_type,
*d95e6d02SGuray Ozen        M,
*d95e6d02SGuray Ozen        N,
*d95e6d02SGuray Ozen        K,
*d95e6d02SGuray Ozen        BLOCK_M,
*d95e6d02SGuray Ozen        BLOCK_N,
*d95e6d02SGuray Ozen        BLOCK_K,
*d95e6d02SGuray Ozen        num_stages,
*d95e6d02SGuray Ozen        use_warp_specialization,
*d95e6d02SGuray Ozen    )
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen    # Launch the MLIR generated kernel
*d95e6d02SGuray Ozen    engine.invoke(kernelName, mem_a, mem_b, mem_c)
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen    float_formatter = "{:.2f}".format
*d95e6d02SGuray Ozen    np.set_printoptions(formatter={"float_kind": float_formatter})
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen    if print_results:
*d95e6d02SGuray Ozen        print(c)
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen    # Verify the results
*d95e6d02SGuray Ozen    if not no_verify:
*d95e6d02SGuray Ozen        ref = a.astype(input_type) @ b.astype(input_type)
*d95e6d02SGuray Ozen        if print_results:
*d95e6d02SGuray Ozen            print(ref)
*d95e6d02SGuray Ozen        np.testing.assert_allclose(c, ref, rtol=5e-03, atol=1e-01)
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen    print("PASS ")
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen# Takes longer time to run
*d95e6d02SGuray Ozendef test_long():
*d95e6d02SGuray Ozen    for stages in range(1, 7):
*d95e6d02SGuray Ozen        for M in [128, 512, 1024, 4096, 8192]:
*d95e6d02SGuray Ozen            for N in [128, 512, 1024, 4096, 8192]:
*d95e6d02SGuray Ozen                for K in [64, 128, 512, 1024, 4096, 8192]:
*d95e6d02SGuray Ozen                    matmul(
*d95e6d02SGuray Ozen                        np.float16,
*d95e6d02SGuray Ozen                        np.float32,
*d95e6d02SGuray Ozen                        M,
*d95e6d02SGuray Ozen                        N,
*d95e6d02SGuray Ozen                        K,
*d95e6d02SGuray Ozen                        max_num_stages=stages,
*d95e6d02SGuray Ozen                        use_warp_specialization=False,
*d95e6d02SGuray Ozen                        no_verify=True,
*d95e6d02SGuray Ozen                    )
*d95e6d02SGuray Ozen                    matmul(
*d95e6d02SGuray Ozen                        np.float16,
*d95e6d02SGuray Ozen                        np.float32,
*d95e6d02SGuray Ozen                        M,
*d95e6d02SGuray Ozen                        N,
*d95e6d02SGuray Ozen                        K,
*d95e6d02SGuray Ozen                        max_num_stages=stages,
*d95e6d02SGuray Ozen                        use_warp_specialization=True,
*d95e6d02SGuray Ozen                    )
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozendef test_short():
*d95e6d02SGuray Ozen    for stages in [1, 3]:
*d95e6d02SGuray Ozen        for M in [128, 512]:
*d95e6d02SGuray Ozen            for N in [128]:
*d95e6d02SGuray Ozen                for K in [64, 256]:
*d95e6d02SGuray Ozen                    matmul(
*d95e6d02SGuray Ozen                        np.float16,
*d95e6d02SGuray Ozen                        np.float32,
*d95e6d02SGuray Ozen                        M,
*d95e6d02SGuray Ozen                        N,
*d95e6d02SGuray Ozen                        K,
*d95e6d02SGuray Ozen                        max_num_stages=stages,
*d95e6d02SGuray Ozen                        use_warp_specialization=False,
*d95e6d02SGuray Ozen                    )
*d95e6d02SGuray Ozen                    matmul(
*d95e6d02SGuray Ozen                        np.float16,
*d95e6d02SGuray Ozen                        np.float32,
*d95e6d02SGuray Ozen                        M,
*d95e6d02SGuray Ozen                        N,
*d95e6d02SGuray Ozen                        K,
*d95e6d02SGuray Ozen                        max_num_stages=stages,
*d95e6d02SGuray Ozen                        use_warp_specialization=True,
*d95e6d02SGuray Ozen                    )
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 128x128x64, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 128x128x64, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 128x128x256, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 128x128x256, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 512x128x64, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 512x128x64, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 512x128x256, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 512x128x256, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 128x128x64, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 128x128x64, Tile 128x128x64, stages 1 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 128x128x256, Tile 128x128x64, stages 3 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 128x128x256, Tile 128x128x64, stages 3 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 512x128x64, Tile 128x128x64, stages 2 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 512x128x64, Tile 128x128x64, stages 2 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Multistage f32 += f16 * f16, Size 512x128x256, Tile 128x128x64, stages 3 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen# CHECK: ===-- Running GEMM Warp specialization f32 += f16 * f16, Size 512x128x256, Tile 128x128x64, stages 3 --===
*d95e6d02SGuray Ozen# CHECK: PASS
*d95e6d02SGuray Ozen
*d95e6d02SGuray Ozentest_short()