Examples/NVGPU/Ch1.py

4d330820SGuray Ozen# RUN: env SUPPORT_LIB=%mlir_cuda_runtime \
4d330820SGuray Ozen# RUN:   %PYTHON %s | FileCheck %s
4d330820SGuray Ozen
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen#  Chapter 1 : 2D Saxpy
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen#
4d330820SGuray Ozen# This program demonstrates 2D Saxpy:
4d330820SGuray Ozen#  1. Use GPU dialect to allocate and copy memory host to gpu and vice versa
4d330820SGuray Ozen#  2. Computes 2D SAXPY kernel using operator overloading
4d330820SGuray Ozen#  3. Pass numpy arrays to MLIR as memref arguments
4d330820SGuray Ozen#  4. Verify MLIR program with reference computation in python
4d330820SGuray Ozen#
4d330820SGuray Ozen# ===----------------------------------------------------------------------===//
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozenfrom mlir import ir
4d330820SGuray Ozenfrom mlir.dialects import gpu, memref
4d330820SGuray Ozenfrom tools.nvdsl import *
4d330820SGuray Ozenimport numpy as np
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen@NVDSL.mlir_func
4d330820SGuray Ozendef saxpy(x, y, alpha):
4d330820SGuray Ozen    # 1. Use MLIR GPU dialect to allocate and copy memory
*f8ff9094SGuray Ozen    token_ty = gpu.AsyncTokenType.get()
4d330820SGuray Ozen    t1 = gpu.wait(token_ty, [])
4d330820SGuray Ozen    x_dev, t2 = gpu.alloc(x.type, token_ty, [t1], [], [])
4d330820SGuray Ozen    y_dev, t3 = gpu.alloc(y.type, token_ty, [t2], [], [])
4d330820SGuray Ozen    t4 = gpu.memcpy(token_ty, [t3], x_dev, x)
4d330820SGuray Ozen    t5 = gpu.memcpy(token_ty, [t4], y_dev, y)
4d330820SGuray Ozen    t6 = gpu.wait(token_ty, [t5])
4d330820SGuray Ozen
4d330820SGuray Ozen    # 2. Compute 2D SAXPY kernel
4d330820SGuray Ozen    @NVDSL.mlir_gpu_launch(grid=(M, 1, 1), block=(N, 1, 1))
4d330820SGuray Ozen    def saxpy_kernel():
4d330820SGuray Ozen        bidx = gpu.block_id(gpu.Dimension.x)
4d330820SGuray Ozen        tidx = gpu.thread_id(gpu.Dimension.x)
4d330820SGuray Ozen        x_val = memref.load(x_dev, [bidx, tidx])
4d330820SGuray Ozen        y_val = memref.load(y_dev, [bidx, tidx])
4d330820SGuray Ozen
4d330820SGuray Ozen        # SAXPY: y[i] += a * x[i];
4d330820SGuray Ozen        y_val += x_val * alpha
4d330820SGuray Ozen
4d330820SGuray Ozen        memref.store(y_val, y_dev, [bidx, tidx])
4d330820SGuray Ozen
4d330820SGuray Ozen    saxpy_kernel()
4d330820SGuray Ozen
4d330820SGuray Ozen    t7 = gpu.memcpy(token_ty, [t6], y, y_dev)
4d330820SGuray Ozen    gpu.wait(token_ty, [t7])
4d330820SGuray Ozen
4d330820SGuray Ozen
4d330820SGuray Ozen# 3. Pass numpy arrays to MLIR
4d330820SGuray OzenM = 256
4d330820SGuray OzenN = 32
4d330820SGuray Ozenalpha = 2.0
4d330820SGuray Ozenx = np.random.randn(M, N).astype(np.float32)
4d330820SGuray Ozeny = np.ones((M, N), np.float32)
4d330820SGuray Ozensaxpy(x, y, alpha)
4d330820SGuray Ozen
4d330820SGuray Ozen#  4. Verify MLIR with reference computation
4d330820SGuray Ozenref = np.ones((M, N), np.float32)
4d330820SGuray Ozenref += x * alpha
4d330820SGuray Ozennp.testing.assert_allclose(y, ref, rtol=5e-03, atol=1e-01)
4d330820SGuray Ozenprint("PASS")
4d330820SGuray Ozen# CHECK-NOT: Mismatched elements