Frontend/OpenMP/OMPGridValues.h

5ffd83dbSDimitry Andric//====--- OMPGridValues.h - Language-specific address spaces --*- C++ -*-====//
5ffd83dbSDimitry Andric//
*e8d8bef9SDimitry Andric// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
*e8d8bef9SDimitry Andric// See https://llvm.org/LICENSE.txt for license information.
*e8d8bef9SDimitry Andric// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
5ffd83dbSDimitry Andric//
5ffd83dbSDimitry Andric//===----------------------------------------------------------------------===//
5ffd83dbSDimitry Andric///
5ffd83dbSDimitry Andric/// \file
5ffd83dbSDimitry Andric/// \brief Provides definitions for Target specific Grid Values
5ffd83dbSDimitry Andric///
5ffd83dbSDimitry Andric//===----------------------------------------------------------------------===//
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andric#ifndef LLVM_OPENMP_GRIDVALUES_H
5ffd83dbSDimitry Andric#define LLVM_OPENMP_GRIDVALUES_H
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andricnamespace llvm {
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andricnamespace omp {
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andric/// \brief Defines various target-specific GPU grid values that must be
5ffd83dbSDimitry Andric///        consistent between host RTL (plugin), device RTL, and clang.
5ffd83dbSDimitry Andric///        We can change grid values for a "fat" binary so that different
5ffd83dbSDimitry Andric///        passes get the correct values when generating code for a
5ffd83dbSDimitry Andric///        multi-target binary. Both amdgcn and nvptx values are stored in
5ffd83dbSDimitry Andric///        this file. In the future, should there be differences between GPUs
5ffd83dbSDimitry Andric///        of the same architecture, then simply make a different array and
5ffd83dbSDimitry Andric///        use the new array name.
5ffd83dbSDimitry Andric///
5ffd83dbSDimitry Andric/// Example usage in clang:
*e8d8bef9SDimitry Andric///   const unsigned slot_size =
*e8d8bef9SDimitry Andric///   ctx.GetTargetInfo().getGridValue(llvm::omp::GVIDX::GV_Warp_Size);
5ffd83dbSDimitry Andric///
5ffd83dbSDimitry Andric/// Example usage in libomptarget/deviceRTLs:
*e8d8bef9SDimitry Andric///   #include "llvm/Frontend/OpenMP/OMPGridValues.h"
5ffd83dbSDimitry Andric///   #ifdef __AMDGPU__
5ffd83dbSDimitry Andric///     #define GRIDVAL AMDGPUGpuGridValues
5ffd83dbSDimitry Andric///   #else
5ffd83dbSDimitry Andric///     #define GRIDVAL NVPTXGpuGridValues
5ffd83dbSDimitry Andric///   #endif
5ffd83dbSDimitry Andric///   ... Then use this reference for GV_Warp_Size in the deviceRTL source.
*e8d8bef9SDimitry Andric///   llvm::omp::GRIDVAL[llvm::omp::GVIDX::GV_Warp_Size]
5ffd83dbSDimitry Andric///
5ffd83dbSDimitry Andric/// Example usage in libomptarget hsa plugin:
*e8d8bef9SDimitry Andric///   #include "llvm/Frontend/OpenMP/OMPGridValues.h"
5ffd83dbSDimitry Andric///   #define GRIDVAL AMDGPUGpuGridValues
5ffd83dbSDimitry Andric///   ... Then use this reference to access GV_Warp_Size in the hsa plugin.
*e8d8bef9SDimitry Andric///   llvm::omp::GRIDVAL[llvm::omp::GVIDX::GV_Warp_Size]
5ffd83dbSDimitry Andric///
5ffd83dbSDimitry Andric/// Example usage in libomptarget cuda plugin:
*e8d8bef9SDimitry Andric///    #include "llvm/Frontend/OpenMP/OMPGridValues.h"
5ffd83dbSDimitry Andric///    #define GRIDVAL NVPTXGpuGridValues
5ffd83dbSDimitry Andric///   ... Then use this reference to access GV_Warp_Size in the cuda plugin.
*e8d8bef9SDimitry Andric///    llvm::omp::GRIDVAL[llvm::omp::GVIDX::GV_Warp_Size]
5ffd83dbSDimitry Andric///
5ffd83dbSDimitry Andricenum GVIDX {
5ffd83dbSDimitry Andric  /// The maximum number of workers in a kernel.
5ffd83dbSDimitry Andric  /// (THREAD_ABSOLUTE_LIMIT) - (GV_Warp_Size), might be issue for blockDim.z
5ffd83dbSDimitry Andric  GV_Threads,
5ffd83dbSDimitry Andric  /// The size reserved for data in a shared memory slot.
5ffd83dbSDimitry Andric  GV_Slot_Size,
5ffd83dbSDimitry Andric  /// The default value of maximum number of threads in a worker warp.
5ffd83dbSDimitry Andric  GV_Warp_Size,
5ffd83dbSDimitry Andric  /// Alternate warp size for some AMDGCN architectures. Same as GV_Warp_Size
5ffd83dbSDimitry Andric  /// for NVPTX.
5ffd83dbSDimitry Andric  GV_Warp_Size_32,
5ffd83dbSDimitry Andric  /// The number of bits required to represent the max number of threads in warp
5ffd83dbSDimitry Andric  GV_Warp_Size_Log2,
5ffd83dbSDimitry Andric  /// GV_Warp_Size * GV_Slot_Size,
5ffd83dbSDimitry Andric  GV_Warp_Slot_Size,
5ffd83dbSDimitry Andric  /// the maximum number of teams.
5ffd83dbSDimitry Andric  GV_Max_Teams,
5ffd83dbSDimitry Andric  /// Global Memory Alignment
5ffd83dbSDimitry Andric  GV_Mem_Align,
5ffd83dbSDimitry Andric  /// (~0u >> (GV_Warp_Size - GV_Warp_Size_Log2))
5ffd83dbSDimitry Andric  GV_Warp_Size_Log2_Mask,
5ffd83dbSDimitry Andric  // An alternative to the heavy data sharing infrastructure that uses global
5ffd83dbSDimitry Andric  // memory is one that uses device __shared__ memory.  The amount of such space
5ffd83dbSDimitry Andric  // (in bytes) reserved by the OpenMP runtime is noted here.
5ffd83dbSDimitry Andric  GV_SimpleBufferSize,
5ffd83dbSDimitry Andric  // The absolute maximum team size for a working group
5ffd83dbSDimitry Andric  GV_Max_WG_Size,
5ffd83dbSDimitry Andric  // The default maximum team size for a working group
5ffd83dbSDimitry Andric  GV_Default_WG_Size,
5ffd83dbSDimitry Andric  // This is GV_Max_WG_Size / GV_WarpSize. 32 for NVPTX and 16 for AMDGCN.
5ffd83dbSDimitry Andric  GV_Max_Warp_Number,
5ffd83dbSDimitry Andric  /// The slot size that should be reserved for a working warp.
5ffd83dbSDimitry Andric  /// (~0u >> (GV_Warp_Size - GV_Warp_Size_Log2))
5ffd83dbSDimitry Andric  GV_Warp_Size_Log2_MaskL
5ffd83dbSDimitry Andric};
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andric/// For AMDGPU GPUs
5ffd83dbSDimitry Andricstatic constexpr unsigned AMDGPUGpuGridValues[] = {
5ffd83dbSDimitry Andric    448,       // GV_Threads
5ffd83dbSDimitry Andric    256,       // GV_Slot_Size
5ffd83dbSDimitry Andric    64,        // GV_Warp_Size
5ffd83dbSDimitry Andric    32,        // GV_Warp_Size_32
5ffd83dbSDimitry Andric    6,         // GV_Warp_Size_Log2
5ffd83dbSDimitry Andric    64 * 256,  // GV_Warp_Slot_Size
5ffd83dbSDimitry Andric    128,       // GV_Max_Teams
5ffd83dbSDimitry Andric    256,       // GV_Mem_Align
5ffd83dbSDimitry Andric    63,        // GV_Warp_Size_Log2_Mask
5ffd83dbSDimitry Andric    896,       // GV_SimpleBufferSize
5ffd83dbSDimitry Andric    1024,      // GV_Max_WG_Size,
5ffd83dbSDimitry Andric    256,       // GV_Defaut_WG_Size
5ffd83dbSDimitry Andric    1024 / 64, // GV_Max_WG_Size / GV_WarpSize
5ffd83dbSDimitry Andric    63         // GV_Warp_Size_Log2_MaskL
5ffd83dbSDimitry Andric};
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andric/// For Nvidia GPUs
5ffd83dbSDimitry Andricstatic constexpr unsigned NVPTXGpuGridValues[] = {
5ffd83dbSDimitry Andric    992,               // GV_Threads
5ffd83dbSDimitry Andric    256,               // GV_Slot_Size
5ffd83dbSDimitry Andric    32,                // GV_Warp_Size
5ffd83dbSDimitry Andric    32,                // GV_Warp_Size_32
5ffd83dbSDimitry Andric    5,                 // GV_Warp_Size_Log2
5ffd83dbSDimitry Andric    32 * 256,          // GV_Warp_Slot_Size
5ffd83dbSDimitry Andric    1024,              // GV_Max_Teams
5ffd83dbSDimitry Andric    256,               // GV_Mem_Align
5ffd83dbSDimitry Andric    (~0u >> (32 - 5)), // GV_Warp_Size_Log2_Mask
5ffd83dbSDimitry Andric    896,               // GV_SimpleBufferSize
5ffd83dbSDimitry Andric    1024,              // GV_Max_WG_Size
5ffd83dbSDimitry Andric    128,               // GV_Defaut_WG_Size
5ffd83dbSDimitry Andric    1024 / 32,         // GV_Max_WG_Size / GV_WarpSize
5ffd83dbSDimitry Andric    31                 // GV_Warp_Size_Log2_MaskL
5ffd83dbSDimitry Andric};
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andric} // namespace omp
5ffd83dbSDimitry Andric} // namespace llvm
5ffd83dbSDimitry Andric
5ffd83dbSDimitry Andric#endif // LLVM_OPENMP_GRIDVALUES_H