Target/AMDGPU/GCNSubtarget.cpp

a6bae5cbSJay Foad//===-- GCNSubtarget.cpp - GCN Subtarget Information ----------------------===//
a6bae5cbSJay Foad//
a6bae5cbSJay Foad// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
a6bae5cbSJay Foad// See https://llvm.org/LICENSE.txt for license information.
a6bae5cbSJay Foad// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
a6bae5cbSJay Foad//
a6bae5cbSJay Foad//===----------------------------------------------------------------------===//
a6bae5cbSJay Foad//
a6bae5cbSJay Foad/// \file
a6bae5cbSJay Foad/// Implements the GCN specific subclass of TargetSubtarget.
a6bae5cbSJay Foad//
a6bae5cbSJay Foad//===----------------------------------------------------------------------===//
a6bae5cbSJay Foad
a6bae5cbSJay Foad#include "GCNSubtarget.h"
a6bae5cbSJay Foad#include "AMDGPUCallLowering.h"
a6bae5cbSJay Foad#include "AMDGPUInstructionSelector.h"
a6bae5cbSJay Foad#include "AMDGPULegalizerInfo.h"
a6bae5cbSJay Foad#include "AMDGPURegisterBankInfo.h"
03847f19SSergei Barannikov#include "AMDGPUSelectionDAGInfo.h"
a6bae5cbSJay Foad#include "AMDGPUTargetMachine.h"
a6bae5cbSJay Foad#include "SIMachineFunctionInfo.h"
a6bae5cbSJay Foad#include "Utils/AMDGPUBaseInfo.h"
a6bae5cbSJay Foad#include "llvm/ADT/SmallString.h"
a6bae5cbSJay Foad#include "llvm/CodeGen/GlobalISel/InlineAsmLowering.h"
a6bae5cbSJay Foad#include "llvm/CodeGen/MachineScheduler.h"
a6bae5cbSJay Foad#include "llvm/CodeGen/TargetFrameLowering.h"
a6bae5cbSJay Foad#include "llvm/IR/DiagnosticInfo.h"
a6bae5cbSJay Foad#include "llvm/IR/MDBuilder.h"
a6bae5cbSJay Foad#include <algorithm>
a6bae5cbSJay Foad
a6bae5cbSJay Foadusing namespace llvm;
a6bae5cbSJay Foad
a6bae5cbSJay Foad#define DEBUG_TYPE "gcn-subtarget"
a6bae5cbSJay Foad
a6bae5cbSJay Foad#define GET_SUBTARGETINFO_TARGET_DESC
a6bae5cbSJay Foad#define GET_SUBTARGETINFO_CTOR
a6bae5cbSJay Foad#define AMDGPUSubtarget GCNSubtarget
a6bae5cbSJay Foad#include "AMDGPUGenSubtargetInfo.inc"
a6bae5cbSJay Foad#undef AMDGPUSubtarget
a6bae5cbSJay Foad
a6bae5cbSJay Foadstatic cl::opt<bool> EnableVGPRIndexMode(
a6bae5cbSJay Foad    "amdgpu-vgpr-index-mode",
a6bae5cbSJay Foad    cl::desc("Use GPR indexing mode instead of movrel for vector indexing"),
a6bae5cbSJay Foad    cl::init(false));
a6bae5cbSJay Foad
a6bae5cbSJay Foadstatic cl::opt<bool> UseAA("amdgpu-use-aa-in-codegen",
a6bae5cbSJay Foad                           cl::desc("Enable the use of AA during codegen."),
a6bae5cbSJay Foad                           cl::init(true));
a6bae5cbSJay Foad
a6bae5cbSJay Foadstatic cl::opt<unsigned>
a6bae5cbSJay Foad    NSAThreshold("amdgpu-nsa-threshold",
a6bae5cbSJay Foad                 cl::desc("Number of addresses from which to enable MIMG NSA."),
b3995aa3SJay Foad                 cl::init(2), cl::Hidden);
a6bae5cbSJay Foad
a6bae5cbSJay FoadGCNSubtarget::~GCNSubtarget() = default;
a6bae5cbSJay Foad
a6bae5cbSJay FoadGCNSubtarget &GCNSubtarget::initializeSubtargetDependencies(const Triple &TT,
a6bae5cbSJay Foad                                                            StringRef GPU,
a6bae5cbSJay Foad                                                            StringRef FS) {
a6bae5cbSJay Foad  // Determine default and user-specified characteristics
a6bae5cbSJay Foad  //
a6bae5cbSJay Foad  // We want to be able to turn these off, but making this a subtarget feature
a6bae5cbSJay Foad  // for SI has the unhelpful behavior that it unsets everything else if you
a6bae5cbSJay Foad  // disable it.
a6bae5cbSJay Foad  //
a6bae5cbSJay Foad  // Similarly we want enable-prt-strict-null to be on by default and not to
a6bae5cbSJay Foad  // unset everything else if it is disabled
a6bae5cbSJay Foad
a6bae5cbSJay Foad  SmallString<256> FullFS("+promote-alloca,+load-store-opt,+enable-ds128,");
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Turn on features that HSA ABI requires. Also turn on FlatForGlobal by
a6bae5cbSJay Foad  // default
a6bae5cbSJay Foad  if (isAmdHsaOS())
a6bae5cbSJay Foad    FullFS += "+flat-for-global,+unaligned-access-mode,+trap-handler,";
a6bae5cbSJay Foad
a6bae5cbSJay Foad  FullFS += "+enable-prt-strict-null,"; // This is overridden by a disable in FS
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Disable mutually exclusive bits.
a6bae5cbSJay Foad  if (FS.contains_insensitive("+wavefrontsize")) {
a6bae5cbSJay Foad    if (!FS.contains_insensitive("wavefrontsize16"))
a6bae5cbSJay Foad      FullFS += "-wavefrontsize16,";
a6bae5cbSJay Foad    if (!FS.contains_insensitive("wavefrontsize32"))
a6bae5cbSJay Foad      FullFS += "-wavefrontsize32,";
a6bae5cbSJay Foad    if (!FS.contains_insensitive("wavefrontsize64"))
a6bae5cbSJay Foad      FullFS += "-wavefrontsize64,";
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  FullFS += FS;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  ParseSubtargetFeatures(GPU, /*TuneCPU*/ GPU, FullFS);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Implement the "generic" processors, which acts as the default when no
a6bae5cbSJay Foad  // generation features are enabled (e.g for -mcpu=''). HSA OS defaults to
a6bae5cbSJay Foad  // the first amdgcn target that supports flat addressing. Other OSes defaults
a6bae5cbSJay Foad  // to the first amdgcn target.
a6bae5cbSJay Foad  if (Gen == AMDGPUSubtarget::INVALID) {
a6bae5cbSJay Foad    Gen = TT.getOS() == Triple::AMDHSA ? AMDGPUSubtarget::SEA_ISLANDS
a6bae5cbSJay Foad                                       : AMDGPUSubtarget::SOUTHERN_ISLANDS;
cd20fc07SMatt Arsenault    // Assume wave64 for the unknown target, if not explicitly set.
cd20fc07SMatt Arsenault    if (getWavefrontSizeLog2() == 0)
cd20fc07SMatt Arsenault      WavefrontSizeLog2 = 6;
cd20fc07SMatt Arsenault  } else if (!hasFeature(AMDGPU::FeatureWavefrontSize32) &&
a6bae5cbSJay Foad             !hasFeature(AMDGPU::FeatureWavefrontSize64)) {
a6bae5cbSJay Foad    // If there is no default wave size it must be a generation before gfx10,
a6bae5cbSJay Foad    // these have FeatureWavefrontSize64 in their definition already. For gfx10+
a6bae5cbSJay Foad    // set wave32 as a default.
a6bae5cbSJay Foad    ToggleFeature(AMDGPU::FeatureWavefrontSize32);
cd20fc07SMatt Arsenault    WavefrontSizeLog2 = getGeneration() >= AMDGPUSubtarget::GFX10 ? 5 : 6;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // We don't support FP64 for EG/NI atm.
a6bae5cbSJay Foad  assert(!hasFP64() || (getGeneration() >= AMDGPUSubtarget::SOUTHERN_ISLANDS));
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Targets must either support 64-bit offsets for MUBUF instructions, and/or
a6bae5cbSJay Foad  // support flat operations, otherwise they cannot access a 64-bit global
a6bae5cbSJay Foad  // address space
a6bae5cbSJay Foad  assert(hasAddr64() || hasFlat());
a6bae5cbSJay Foad  // Unless +-flat-for-global is specified, turn on FlatForGlobal for targets
a6bae5cbSJay Foad  // that do not support ADDR64 variants of MUBUF instructions. Such targets
a6bae5cbSJay Foad  // cannot use a 64 bit offset with a MUBUF instruction to access the global
a6bae5cbSJay Foad  // address space
a6bae5cbSJay Foad  if (!hasAddr64() && !FS.contains("flat-for-global") && !FlatForGlobal) {
a6bae5cbSJay Foad    ToggleFeature(AMDGPU::FeatureFlatForGlobal);
a6bae5cbSJay Foad    FlatForGlobal = true;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad  // Unless +-flat-for-global is specified, use MUBUF instructions for global
a6bae5cbSJay Foad  // address space access if flat operations are not available.
a6bae5cbSJay Foad  if (!hasFlat() && !FS.contains("flat-for-global") && FlatForGlobal) {
a6bae5cbSJay Foad    ToggleFeature(AMDGPU::FeatureFlatForGlobal);
a6bae5cbSJay Foad    FlatForGlobal = false;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Set defaults if needed.
a6bae5cbSJay Foad  if (MaxPrivateElementSize == 0)
a6bae5cbSJay Foad    MaxPrivateElementSize = 4;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (LDSBankCount == 0)
a6bae5cbSJay Foad    LDSBankCount = 32;
a6bae5cbSJay Foad
6f956e31SJay Foad  if (TT.getArch() == Triple::amdgcn && AddressableLocalMemorySize == 0)
6f956e31SJay Foad    AddressableLocalMemorySize = 32768;
a6bae5cbSJay Foad
6f956e31SJay Foad  LocalMemorySize = AddressableLocalMemorySize;
a6bae5cbSJay Foad  if (AMDGPU::isGFX10Plus(*this) &&
a6bae5cbSJay Foad      !getFeatureBits().test(AMDGPU::FeatureCuMode))
a6bae5cbSJay Foad    LocalMemorySize *= 2;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  HasFminFmaxLegacy = getGeneration() < AMDGPUSubtarget::VOLCANIC_ISLANDS;
a6bae5cbSJay Foad  HasSMulHi = getGeneration() >= AMDGPUSubtarget::GFX9;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  TargetID.setTargetIDFromFeaturesString(FS);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  LLVM_DEBUG(dbgs() << "xnack setting for subtarget: "
a6bae5cbSJay Foad                    << TargetID.getXnackSetting() << '\n');
a6bae5cbSJay Foad  LLVM_DEBUG(dbgs() << "sramecc setting for subtarget: "
a6bae5cbSJay Foad                    << TargetID.getSramEccSetting() << '\n');
a6bae5cbSJay Foad
a6bae5cbSJay Foad  return *this;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadvoid GCNSubtarget::checkSubtargetFeatures(const Function &F) const {
a6bae5cbSJay Foad  LLVMContext &Ctx = F.getContext();
cd20fc07SMatt Arsenault  if (hasFeature(AMDGPU::FeatureWavefrontSize32) &&
a6bae5cbSJay Foad      hasFeature(AMDGPU::FeatureWavefrontSize64)) {
a6bae5cbSJay Foad    Ctx.diagnose(DiagnosticInfoUnsupported(
a6bae5cbSJay Foad        F, "must specify exactly one of wavefrontsize32 and wavefrontsize64"));
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay FoadGCNSubtarget::GCNSubtarget(const Triple &TT, StringRef GPU, StringRef FS,
a6bae5cbSJay Foad                           const GCNTargetMachine &TM)
a6bae5cbSJay Foad    : // clang-format off
a6bae5cbSJay Foad    AMDGPUGenSubtargetInfo(TT, GPU, /*TuneCPU*/ GPU, FS),
a6bae5cbSJay Foad    AMDGPUSubtarget(TT),
a6bae5cbSJay Foad    TargetTriple(TT),
a6bae5cbSJay Foad    TargetID(*this),
a6bae5cbSJay Foad    InstrItins(getInstrItineraryForCPU(GPU)),
a6bae5cbSJay Foad    InstrInfo(initializeSubtargetDependencies(TT, GPU, FS)),
a6bae5cbSJay Foad    TLInfo(TM, *this),
a6bae5cbSJay Foad    FrameLowering(TargetFrameLowering::StackGrowsUp, getStackAlignment(), 0) {
a6bae5cbSJay Foad  // clang-format on
a6bae5cbSJay Foad  MaxWavesPerEU = AMDGPU::IsaInfo::getMaxWavesPerEU(this);
a6bae5cbSJay Foad  EUsPerCU = AMDGPU::IsaInfo::getEUsPerCU(this);
03847f19SSergei Barannikov
03847f19SSergei Barannikov  TSInfo = std::make_unique<AMDGPUSelectionDAGInfo>();
03847f19SSergei Barannikov
a6bae5cbSJay Foad  CallLoweringInfo = std::make_unique<AMDGPUCallLowering>(*getTargetLowering());
a6bae5cbSJay Foad  InlineAsmLoweringInfo =
a6bae5cbSJay Foad      std::make_unique<InlineAsmLowering>(getTargetLowering());
a6bae5cbSJay Foad  Legalizer = std::make_unique<AMDGPULegalizerInfo>(*this, TM);
a6bae5cbSJay Foad  RegBankInfo = std::make_unique<AMDGPURegisterBankInfo>(*this);
a6bae5cbSJay Foad  InstSelector =
a6bae5cbSJay Foad      std::make_unique<AMDGPUInstructionSelector>(*this, *RegBankInfo, TM);
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
03847f19SSergei Barannikovconst SelectionDAGTargetInfo *GCNSubtarget::getSelectionDAGInfo() const {
03847f19SSergei Barannikov  return TSInfo.get();
03847f19SSergei Barannikov}
03847f19SSergei Barannikov
a6bae5cbSJay Foadunsigned GCNSubtarget::getConstantBusLimit(unsigned Opcode) const {
a6bae5cbSJay Foad  if (getGeneration() < GFX10)
a6bae5cbSJay Foad    return 1;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  switch (Opcode) {
a6bae5cbSJay Foad  case AMDGPU::V_LSHLREV_B64_e64:
a6bae5cbSJay Foad  case AMDGPU::V_LSHLREV_B64_gfx10:
a6bae5cbSJay Foad  case AMDGPU::V_LSHLREV_B64_e64_gfx11:
a6bae5cbSJay Foad  case AMDGPU::V_LSHLREV_B64_e32_gfx12:
a6bae5cbSJay Foad  case AMDGPU::V_LSHLREV_B64_e64_gfx12:
a6bae5cbSJay Foad  case AMDGPU::V_LSHL_B64_e64:
a6bae5cbSJay Foad  case AMDGPU::V_LSHRREV_B64_e64:
a6bae5cbSJay Foad  case AMDGPU::V_LSHRREV_B64_gfx10:
a6bae5cbSJay Foad  case AMDGPU::V_LSHRREV_B64_e64_gfx11:
a6bae5cbSJay Foad  case AMDGPU::V_LSHRREV_B64_e64_gfx12:
a6bae5cbSJay Foad  case AMDGPU::V_LSHR_B64_e64:
a6bae5cbSJay Foad  case AMDGPU::V_ASHRREV_I64_e64:
a6bae5cbSJay Foad  case AMDGPU::V_ASHRREV_I64_gfx10:
a6bae5cbSJay Foad  case AMDGPU::V_ASHRREV_I64_e64_gfx11:
a6bae5cbSJay Foad  case AMDGPU::V_ASHRREV_I64_e64_gfx12:
a6bae5cbSJay Foad  case AMDGPU::V_ASHR_I64_e64:
a6bae5cbSJay Foad    return 1;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  return 2;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foad/// This list was mostly derived from experimentation.
a6bae5cbSJay Foadbool GCNSubtarget::zeroesHigh16BitsOfDest(unsigned Opcode) const {
a6bae5cbSJay Foad  switch (Opcode) {
a6bae5cbSJay Foad  case AMDGPU::V_CVT_F16_F32_e32:
a6bae5cbSJay Foad  case AMDGPU::V_CVT_F16_F32_e64:
a6bae5cbSJay Foad  case AMDGPU::V_CVT_F16_U16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_CVT_F16_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_CVT_F16_I16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_CVT_F16_I16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_RCP_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_RCP_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_RSQ_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_RSQ_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_SQRT_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_SQRT_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_LOG_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_LOG_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_EXP_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_EXP_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_SIN_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_SIN_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_COS_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_COS_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_FLOOR_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_FLOOR_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_CEIL_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_CEIL_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_TRUNC_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_TRUNC_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_RNDNE_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_RNDNE_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_FRACT_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_FRACT_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_FREXP_MANT_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_FREXP_MANT_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_FREXP_EXP_I16_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_FREXP_EXP_I16_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_LDEXP_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_LDEXP_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_LSHLREV_B16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_LSHLREV_B16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_LSHRREV_B16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_LSHRREV_B16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_ASHRREV_I16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_ASHRREV_I16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_ADD_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_ADD_U16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_SUB_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_SUB_U16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_SUBREV_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_SUBREV_U16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MUL_LO_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MUL_LO_U16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_ADD_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_ADD_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_SUB_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_SUB_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_SUBREV_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_SUBREV_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MUL_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MUL_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MAX_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MAX_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MIN_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MIN_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MAX_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MAX_U16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MIN_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MIN_U16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MAX_I16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MAX_I16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MIN_I16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MIN_I16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_MAD_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MAD_U16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MAD_I16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_FMA_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_DIV_FIXUP_F16_e64:
a6bae5cbSJay Foad    // On gfx10, all 16-bit instructions preserve the high bits.
a6bae5cbSJay Foad    return getGeneration() <= AMDGPUSubtarget::GFX9;
a6bae5cbSJay Foad  case AMDGPU::V_MADAK_F16:
a6bae5cbSJay Foad  case AMDGPU::V_MADMK_F16:
a6bae5cbSJay Foad  case AMDGPU::V_MAC_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_MAC_F16_e32:
a6bae5cbSJay Foad  case AMDGPU::V_FMAMK_F16:
a6bae5cbSJay Foad  case AMDGPU::V_FMAAK_F16:
a6bae5cbSJay Foad  case AMDGPU::V_FMAC_F16_e64:
a6bae5cbSJay Foad  case AMDGPU::V_FMAC_F16_e32:
a6bae5cbSJay Foad    // In gfx9, the preferred handling of the unused high 16-bits changed. Most
a6bae5cbSJay Foad    // instructions maintain the legacy behavior of 0ing. Some instructions
a6bae5cbSJay Foad    // changed to preserving the high bits.
a6bae5cbSJay Foad    return getGeneration() == AMDGPUSubtarget::VOLCANIC_ISLANDS;
a6bae5cbSJay Foad  case AMDGPU::V_MAD_MIXLO_F16:
a6bae5cbSJay Foad  case AMDGPU::V_MAD_MIXHI_F16:
a6bae5cbSJay Foad  default:
a6bae5cbSJay Foad    return false;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadvoid GCNSubtarget::overrideSchedPolicy(MachineSchedPolicy &Policy,
a6bae5cbSJay Foad                                       unsigned NumRegionInstrs) const {
a6bae5cbSJay Foad  // Track register pressure so the scheduler can try to decrease
a6bae5cbSJay Foad  // pressure once register usage is above the threshold defined by
a6bae5cbSJay Foad  // SIRegisterInfo::getRegPressureSetLimit()
a6bae5cbSJay Foad  Policy.ShouldTrackPressure = true;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Enabling both top down and bottom up scheduling seems to give us less
a6bae5cbSJay Foad  // register spills than just using one of these approaches on its own.
a6bae5cbSJay Foad  Policy.OnlyTopDown = false;
a6bae5cbSJay Foad  Policy.OnlyBottomUp = false;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Enabling ShouldTrackLaneMasks crashes the SI Machine Scheduler.
a6bae5cbSJay Foad  if (!enableSIScheduler())
a6bae5cbSJay Foad    Policy.ShouldTrackLaneMasks = true;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadvoid GCNSubtarget::mirFileLoaded(MachineFunction &MF) const {
a6bae5cbSJay Foad  if (isWave32()) {
a6bae5cbSJay Foad    // Fix implicit $vcc operands after MIParser has verified that they match
a6bae5cbSJay Foad    // the instruction definitions.
a6bae5cbSJay Foad    for (auto &MBB : MF) {
a6bae5cbSJay Foad      for (auto &MI : MBB)
a6bae5cbSJay Foad        InstrInfo.fixImplicitOperands(MI);
a6bae5cbSJay Foad    }
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadbool GCNSubtarget::hasMadF16() const {
a6bae5cbSJay Foad  return InstrInfo.pseudoToMCOpcode(AMDGPU::V_MAD_F16_e64) != -1;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadbool GCNSubtarget::useVGPRIndexMode() const {
b02b5b7bSJay Foad  return hasVGPRIndexMode() && (!hasMovrel() || EnableVGPRIndexMode);
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadbool GCNSubtarget::useAA() const { return UseAA; }
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getOccupancyWithNumSGPRs(unsigned SGPRs) const {
a6bae5cbSJay Foad  return AMDGPU::IsaInfo::getOccupancyWithNumSGPRs(SGPRs, getMaxWavesPerEU(),
a6bae5cbSJay Foad                                                   getGeneration());
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getOccupancyWithNumVGPRs(unsigned NumVGPRs) const {
a6bae5cbSJay Foad  return AMDGPU::IsaInfo::getNumWavesPerEUWithNumVGPRs(this, NumVGPRs);
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned
a6bae5cbSJay FoadGCNSubtarget::getBaseReservedNumSGPRs(const bool HasFlatScratch) const {
a6bae5cbSJay Foad  if (getGeneration() >= AMDGPUSubtarget::GFX10)
a6bae5cbSJay Foad    return 2; // VCC. FLAT_SCRATCH and XNACK are no longer in SGPRs.
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (HasFlatScratch || HasArchitectedFlatScratch) {
a6bae5cbSJay Foad    if (getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS)
a6bae5cbSJay Foad      return 6; // FLAT_SCRATCH, XNACK, VCC (in that order).
a6bae5cbSJay Foad    if (getGeneration() == AMDGPUSubtarget::SEA_ISLANDS)
a6bae5cbSJay Foad      return 4; // FLAT_SCRATCH, VCC (in that order).
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (isXNACKEnabled())
a6bae5cbSJay Foad    return 4; // XNACK, VCC (in that order).
a6bae5cbSJay Foad  return 2;   // VCC.
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getReservedNumSGPRs(const MachineFunction &MF) const {
a6bae5cbSJay Foad  const SIMachineFunctionInfo &MFI = *MF.getInfo<SIMachineFunctionInfo>();
a6bae5cbSJay Foad  return getBaseReservedNumSGPRs(MFI.getUserSGPRInfo().hasFlatScratchInit());
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getReservedNumSGPRs(const Function &F) const {
a6bae5cbSJay Foad  // In principle we do not need to reserve SGPR pair used for flat_scratch if
a6bae5cbSJay Foad  // we know flat instructions do not access the stack anywhere in the
a6bae5cbSJay Foad  // program. For now assume it's needed if we have flat instructions.
a6bae5cbSJay Foad  const bool KernelUsesFlatScratch = hasFlatAddressSpace();
a6bae5cbSJay Foad  return getBaseReservedNumSGPRs(KernelUsesFlatScratch);
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
*6206f544SLucas Ramirezstd::pair<unsigned, unsigned>
*6206f544SLucas RamirezGCNSubtarget::computeOccupancy(const Function &F, unsigned LDSSize,
*6206f544SLucas Ramirez                               unsigned NumSGPRs, unsigned NumVGPRs) const {
*6206f544SLucas Ramirez  auto [MinOcc, MaxOcc] = getOccupancyWithWorkGroupSizes(LDSSize, F);
*6206f544SLucas Ramirez  unsigned SGPROcc = getOccupancyWithNumSGPRs(NumSGPRs);
*6206f544SLucas Ramirez  unsigned VGPROcc = getOccupancyWithNumVGPRs(NumVGPRs);
*6206f544SLucas Ramirez
*6206f544SLucas Ramirez  // Maximum occupancy may be further limited by high SGPR/VGPR usage.
*6206f544SLucas Ramirez  MaxOcc = std::min(MaxOcc, std::min(SGPROcc, VGPROcc));
*6206f544SLucas Ramirez  return {std::min(MinOcc, MaxOcc), MaxOcc};
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getBaseMaxNumSGPRs(
a6bae5cbSJay Foad    const Function &F, std::pair<unsigned, unsigned> WavesPerEU,
a6bae5cbSJay Foad    unsigned PreloadedSGPRs, unsigned ReservedNumSGPRs) const {
a6bae5cbSJay Foad  // Compute maximum number of SGPRs function can use using default/requested
a6bae5cbSJay Foad  // minimum number of waves per execution unit.
a6bae5cbSJay Foad  unsigned MaxNumSGPRs = getMaxNumSGPRs(WavesPerEU.first, false);
a6bae5cbSJay Foad  unsigned MaxAddressableNumSGPRs = getMaxNumSGPRs(WavesPerEU.first, true);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Check if maximum number of SGPRs was explicitly requested using
a6bae5cbSJay Foad  // "amdgpu-num-sgpr" attribute.
a6bae5cbSJay Foad  if (F.hasFnAttribute("amdgpu-num-sgpr")) {
a6bae5cbSJay Foad    unsigned Requested =
a6bae5cbSJay Foad        F.getFnAttributeAsParsedInteger("amdgpu-num-sgpr", MaxNumSGPRs);
a6bae5cbSJay Foad
a6bae5cbSJay Foad    // Make sure requested value does not violate subtarget's specifications.
a6bae5cbSJay Foad    if (Requested && (Requested <= ReservedNumSGPRs))
a6bae5cbSJay Foad      Requested = 0;
a6bae5cbSJay Foad
a6bae5cbSJay Foad    // If more SGPRs are required to support the input user/system SGPRs,
a6bae5cbSJay Foad    // increase to accommodate them.
a6bae5cbSJay Foad    //
a6bae5cbSJay Foad    // FIXME: This really ends up using the requested number of SGPRs + number
a6bae5cbSJay Foad    // of reserved special registers in total. Theoretically you could re-use
a6bae5cbSJay Foad    // the last input registers for these special registers, but this would
a6bae5cbSJay Foad    // require a lot of complexity to deal with the weird aliasing.
a6bae5cbSJay Foad    unsigned InputNumSGPRs = PreloadedSGPRs;
a6bae5cbSJay Foad    if (Requested && Requested < InputNumSGPRs)
a6bae5cbSJay Foad      Requested = InputNumSGPRs;
a6bae5cbSJay Foad
a6bae5cbSJay Foad    // Make sure requested value is compatible with values implied by
a6bae5cbSJay Foad    // default/requested minimum/maximum number of waves per execution unit.
a6bae5cbSJay Foad    if (Requested && Requested > getMaxNumSGPRs(WavesPerEU.first, false))
a6bae5cbSJay Foad      Requested = 0;
a6bae5cbSJay Foad    if (WavesPerEU.second && Requested &&
a6bae5cbSJay Foad        Requested < getMinNumSGPRs(WavesPerEU.second))
a6bae5cbSJay Foad      Requested = 0;
a6bae5cbSJay Foad
a6bae5cbSJay Foad    if (Requested)
a6bae5cbSJay Foad      MaxNumSGPRs = Requested;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasSGPRInitBug())
a6bae5cbSJay Foad    MaxNumSGPRs = AMDGPU::IsaInfo::FIXED_NUM_SGPRS_FOR_INIT_BUG;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  return std::min(MaxNumSGPRs - ReservedNumSGPRs, MaxAddressableNumSGPRs);
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getMaxNumSGPRs(const MachineFunction &MF) const {
a6bae5cbSJay Foad  const Function &F = MF.getFunction();
a6bae5cbSJay Foad  const SIMachineFunctionInfo &MFI = *MF.getInfo<SIMachineFunctionInfo>();
a6bae5cbSJay Foad  return getBaseMaxNumSGPRs(F, MFI.getWavesPerEU(), MFI.getNumPreloadedSGPRs(),
a6bae5cbSJay Foad                            getReservedNumSGPRs(MF));
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadstatic unsigned getMaxNumPreloadedSGPRs() {
a6bae5cbSJay Foad  using USI = GCNUserSGPRUsageInfo;
a6bae5cbSJay Foad  // Max number of user SGPRs
a6bae5cbSJay Foad  const unsigned MaxUserSGPRs =
a6bae5cbSJay Foad      USI::getNumUserSGPRForField(USI::PrivateSegmentBufferID) +
a6bae5cbSJay Foad      USI::getNumUserSGPRForField(USI::DispatchPtrID) +
a6bae5cbSJay Foad      USI::getNumUserSGPRForField(USI::QueuePtrID) +
a6bae5cbSJay Foad      USI::getNumUserSGPRForField(USI::KernargSegmentPtrID) +
a6bae5cbSJay Foad      USI::getNumUserSGPRForField(USI::DispatchIdID) +
a6bae5cbSJay Foad      USI::getNumUserSGPRForField(USI::FlatScratchInitID) +
a6bae5cbSJay Foad      USI::getNumUserSGPRForField(USI::ImplicitBufferPtrID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Max number of system SGPRs
a6bae5cbSJay Foad  const unsigned MaxSystemSGPRs = 1 + // WorkGroupIDX
a6bae5cbSJay Foad                                  1 + // WorkGroupIDY
a6bae5cbSJay Foad                                  1 + // WorkGroupIDZ
a6bae5cbSJay Foad                                  1 + // WorkGroupInfo
a6bae5cbSJay Foad                                  1;  // private segment wave byte offset
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Max number of synthetic SGPRs
a6bae5cbSJay Foad  const unsigned SyntheticSGPRs = 1; // LDSKernelId
a6bae5cbSJay Foad
a6bae5cbSJay Foad  return MaxUserSGPRs + MaxSystemSGPRs + SyntheticSGPRs;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getMaxNumSGPRs(const Function &F) const {
a6bae5cbSJay Foad  return getBaseMaxNumSGPRs(F, getWavesPerEU(F), getMaxNumPreloadedSGPRs(),
a6bae5cbSJay Foad                            getReservedNumSGPRs(F));
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getBaseMaxNumVGPRs(
a6bae5cbSJay Foad    const Function &F, std::pair<unsigned, unsigned> WavesPerEU) const {
a6bae5cbSJay Foad  // Compute maximum number of VGPRs function can use using default/requested
a6bae5cbSJay Foad  // minimum number of waves per execution unit.
a6bae5cbSJay Foad  unsigned MaxNumVGPRs = getMaxNumVGPRs(WavesPerEU.first);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // Check if maximum number of VGPRs was explicitly requested using
a6bae5cbSJay Foad  // "amdgpu-num-vgpr" attribute.
a6bae5cbSJay Foad  if (F.hasFnAttribute("amdgpu-num-vgpr")) {
a6bae5cbSJay Foad    unsigned Requested =
a6bae5cbSJay Foad        F.getFnAttributeAsParsedInteger("amdgpu-num-vgpr", MaxNumVGPRs);
a6bae5cbSJay Foad
a6bae5cbSJay Foad    if (hasGFX90AInsts())
a6bae5cbSJay Foad      Requested *= 2;
a6bae5cbSJay Foad
a6bae5cbSJay Foad    // Make sure requested value is compatible with values implied by
a6bae5cbSJay Foad    // default/requested minimum/maximum number of waves per execution unit.
a6bae5cbSJay Foad    if (Requested && Requested > getMaxNumVGPRs(WavesPerEU.first))
a6bae5cbSJay Foad      Requested = 0;
a6bae5cbSJay Foad    if (WavesPerEU.second && Requested &&
a6bae5cbSJay Foad        Requested < getMinNumVGPRs(WavesPerEU.second))
a6bae5cbSJay Foad      Requested = 0;
a6bae5cbSJay Foad
a6bae5cbSJay Foad    if (Requested)
a6bae5cbSJay Foad      MaxNumVGPRs = Requested;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  return MaxNumVGPRs;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getMaxNumVGPRs(const Function &F) const {
a6bae5cbSJay Foad  return getBaseMaxNumVGPRs(F, getWavesPerEU(F));
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getMaxNumVGPRs(const MachineFunction &MF) const {
a6bae5cbSJay Foad  const Function &F = MF.getFunction();
a6bae5cbSJay Foad  const SIMachineFunctionInfo &MFI = *MF.getInfo<SIMachineFunctionInfo>();
a6bae5cbSJay Foad  return getBaseMaxNumVGPRs(F, MFI.getWavesPerEU());
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadvoid GCNSubtarget::adjustSchedDependency(
a6bae5cbSJay Foad    SUnit *Def, int DefOpIdx, SUnit *Use, int UseOpIdx, SDep &Dep,
a6bae5cbSJay Foad    const TargetSchedModel *SchedModel) const {
a6bae5cbSJay Foad  if (Dep.getKind() != SDep::Kind::Data || !Dep.getReg() || !Def->isInstr() ||
a6bae5cbSJay Foad      !Use->isInstr())
a6bae5cbSJay Foad    return;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  MachineInstr *DefI = Def->getInstr();
a6bae5cbSJay Foad  MachineInstr *UseI = Use->getInstr();
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (DefI->isBundle()) {
a6bae5cbSJay Foad    const SIRegisterInfo *TRI = getRegisterInfo();
a6bae5cbSJay Foad    auto Reg = Dep.getReg();
a6bae5cbSJay Foad    MachineBasicBlock::const_instr_iterator I(DefI->getIterator());
a6bae5cbSJay Foad    MachineBasicBlock::const_instr_iterator E(DefI->getParent()->instr_end());
a6bae5cbSJay Foad    unsigned Lat = 0;
a6bae5cbSJay Foad    for (++I; I != E && I->isBundledWithPred(); ++I) {
a6bae5cbSJay Foad      if (I->modifiesRegister(Reg, TRI))
a6bae5cbSJay Foad        Lat = InstrInfo.getInstrLatency(getInstrItineraryData(), *I);
a6bae5cbSJay Foad      else if (Lat)
a6bae5cbSJay Foad        --Lat;
a6bae5cbSJay Foad    }
a6bae5cbSJay Foad    Dep.setLatency(Lat);
a6bae5cbSJay Foad  } else if (UseI->isBundle()) {
a6bae5cbSJay Foad    const SIRegisterInfo *TRI = getRegisterInfo();
a6bae5cbSJay Foad    auto Reg = Dep.getReg();
a6bae5cbSJay Foad    MachineBasicBlock::const_instr_iterator I(UseI->getIterator());
a6bae5cbSJay Foad    MachineBasicBlock::const_instr_iterator E(UseI->getParent()->instr_end());
a6bae5cbSJay Foad    unsigned Lat = InstrInfo.getInstrLatency(getInstrItineraryData(), *DefI);
a6bae5cbSJay Foad    for (++I; I != E && I->isBundledWithPred() && Lat; ++I) {
a6bae5cbSJay Foad      if (I->readsRegister(Reg, TRI))
a6bae5cbSJay Foad        break;
a6bae5cbSJay Foad      --Lat;
a6bae5cbSJay Foad    }
a6bae5cbSJay Foad    Dep.setLatency(Lat);
a6bae5cbSJay Foad  } else if (Dep.getLatency() == 0 && Dep.getReg() == AMDGPU::VCC_LO) {
a6bae5cbSJay Foad    // Work around the fact that SIInstrInfo::fixImplicitOperands modifies
a6bae5cbSJay Foad    // implicit operands which come from the MCInstrDesc, which can fool
a6bae5cbSJay Foad    // ScheduleDAGInstrs::addPhysRegDataDeps into treating them as implicit
a6bae5cbSJay Foad    // pseudo operands.
a6bae5cbSJay Foad    Dep.setLatency(InstrInfo.getSchedModel().computeOperandLatency(
a6bae5cbSJay Foad        DefI, DefOpIdx, UseI, UseOpIdx));
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNSubtarget::getNSAThreshold(const MachineFunction &MF) const {
a6bae5cbSJay Foad  if (getGeneration() >= AMDGPUSubtarget::GFX12)
a6bae5cbSJay Foad    return 0; // Not MIMG encoding.
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (NSAThreshold.getNumOccurrences() > 0)
a6bae5cbSJay Foad    return std::max(NSAThreshold.getValue(), 2u);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  int Value = MF.getFunction().getFnAttributeAsParsedInteger(
a6bae5cbSJay Foad      "amdgpu-nsa-threshold", -1);
a6bae5cbSJay Foad  if (Value > 0)
a6bae5cbSJay Foad    return std::max(Value, 2);
a6bae5cbSJay Foad
4ce8808dSJay Foad  return NSAThreshold;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay FoadGCNUserSGPRUsageInfo::GCNUserSGPRUsageInfo(const Function &F,
a6bae5cbSJay Foad                                           const GCNSubtarget &ST)
a6bae5cbSJay Foad    : ST(ST) {
a6bae5cbSJay Foad  const CallingConv::ID CC = F.getCallingConv();
a6bae5cbSJay Foad  const bool IsKernel =
a6bae5cbSJay Foad      CC == CallingConv::AMDGPU_KERNEL || CC == CallingConv::SPIR_KERNEL;
a6bae5cbSJay Foad  // FIXME: Should have analysis or something rather than attribute to detect
a6bae5cbSJay Foad  // calls.
a6bae5cbSJay Foad  const bool HasCalls = F.hasFnAttribute("amdgpu-calls");
a6bae5cbSJay Foad  // FIXME: This attribute is a hack, we just need an analysis on the function
a6bae5cbSJay Foad  // to look for allocas.
a6bae5cbSJay Foad  const bool HasStackObjects = F.hasFnAttribute("amdgpu-stack-objects");
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (IsKernel && (!F.arg_empty() || ST.getImplicitArgNumBytes(F) != 0))
a6bae5cbSJay Foad    KernargSegmentPtr = true;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  bool IsAmdHsaOrMesa = ST.isAmdHsaOrMesa(F);
a6bae5cbSJay Foad  if (IsAmdHsaOrMesa && !ST.enableFlatScratch())
a6bae5cbSJay Foad    PrivateSegmentBuffer = true;
a6bae5cbSJay Foad  else if (ST.isMesaGfxShader(F))
a6bae5cbSJay Foad    ImplicitBufferPtr = true;
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (!AMDGPU::isGraphics(CC)) {
a6bae5cbSJay Foad    if (!F.hasFnAttribute("amdgpu-no-dispatch-ptr"))
a6bae5cbSJay Foad      DispatchPtr = true;
a6bae5cbSJay Foad
a6bae5cbSJay Foad    // FIXME: Can this always be disabled with < COv5?
a6bae5cbSJay Foad    if (!F.hasFnAttribute("amdgpu-no-queue-ptr"))
a6bae5cbSJay Foad      QueuePtr = true;
a6bae5cbSJay Foad
a6bae5cbSJay Foad    if (!F.hasFnAttribute("amdgpu-no-dispatch-id"))
a6bae5cbSJay Foad      DispatchID = true;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  // TODO: This could be refined a lot. The attribute is a poor way of
a6bae5cbSJay Foad  // detecting calls or stack objects that may require it before argument
a6bae5cbSJay Foad  // lowering.
a6bae5cbSJay Foad  if (ST.hasFlatAddressSpace() && AMDGPU::isEntryFunctionCC(CC) &&
a6bae5cbSJay Foad      (IsAmdHsaOrMesa || ST.enableFlatScratch()) &&
a6bae5cbSJay Foad      (HasCalls || HasStackObjects || ST.enableFlatScratch()) &&
a6bae5cbSJay Foad      !ST.flatScratchIsArchitected()) {
a6bae5cbSJay Foad    FlatScratchInit = true;
a6bae5cbSJay Foad  }
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasImplicitBufferPtr())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(ImplicitBufferPtrID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasPrivateSegmentBuffer())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(PrivateSegmentBufferID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasDispatchPtr())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(DispatchPtrID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasQueuePtr())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(QueuePtrID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasKernargSegmentPtr())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(KernargSegmentPtrID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasDispatchID())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(DispatchIdID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasFlatScratchInit())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(FlatScratchInitID);
a6bae5cbSJay Foad
a6bae5cbSJay Foad  if (hasPrivateSegmentSize())
a6bae5cbSJay Foad    NumUsedUserSGPRs += getNumUserSGPRForField(PrivateSegmentSizeID);
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadvoid GCNUserSGPRUsageInfo::allocKernargPreloadSGPRs(unsigned NumSGPRs) {
a6bae5cbSJay Foad  assert(NumKernargPreloadSGPRs + NumSGPRs <= AMDGPU::getMaxNumUserSGPRs(ST));
a6bae5cbSJay Foad  NumKernargPreloadSGPRs += NumSGPRs;
a6bae5cbSJay Foad  NumUsedUserSGPRs += NumSGPRs;
a6bae5cbSJay Foad}
a6bae5cbSJay Foad
a6bae5cbSJay Foadunsigned GCNUserSGPRUsageInfo::getNumFreeUserSGPRs() {
a6bae5cbSJay Foad  return AMDGPU::getMaxNumUserSGPRs(ST) - NumUsedUserSGPRs;
a6bae5cbSJay Foad}