Target/AMDGPU/AMDGPULateCodeGenPrepare.cpp

*73471bf0Spatrick//===-- AMDGPUCodeGenPrepare.cpp ------------------------------------------===//
*73471bf0Spatrick//
*73471bf0Spatrick// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
*73471bf0Spatrick// See https://llvm.org/LICENSE.txt for license information.
*73471bf0Spatrick// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*73471bf0Spatrick//
*73471bf0Spatrick//===----------------------------------------------------------------------===//
*73471bf0Spatrick//
*73471bf0Spatrick/// \file
*73471bf0Spatrick/// This pass does misc. AMDGPU optimizations on IR *just* before instruction
*73471bf0Spatrick/// selection.
*73471bf0Spatrick//
*73471bf0Spatrick//===----------------------------------------------------------------------===//
*73471bf0Spatrick
*73471bf0Spatrick#include "AMDGPU.h"
*73471bf0Spatrick#include "llvm/Analysis/AssumptionCache.h"
*73471bf0Spatrick#include "llvm/Analysis/LegacyDivergenceAnalysis.h"
*73471bf0Spatrick#include "llvm/Analysis/ValueTracking.h"
*73471bf0Spatrick#include "llvm/IR/IRBuilder.h"
*73471bf0Spatrick#include "llvm/IR/InstVisitor.h"
*73471bf0Spatrick#include "llvm/InitializePasses.h"
*73471bf0Spatrick#include "llvm/Support/CommandLine.h"
*73471bf0Spatrick#include "llvm/Support/KnownBits.h"
*73471bf0Spatrick#include "llvm/Transforms/Utils/Local.h"
*73471bf0Spatrick
*73471bf0Spatrick#define DEBUG_TYPE "amdgpu-late-codegenprepare"
*73471bf0Spatrick
*73471bf0Spatrickusing namespace llvm;
*73471bf0Spatrick
*73471bf0Spatrick// Scalar load widening needs running after load-store-vectorizer as that pass
*73471bf0Spatrick// doesn't handle overlapping cases. In addition, this pass enhances the
*73471bf0Spatrick// widening to handle cases where scalar sub-dword loads are naturally aligned
*73471bf0Spatrick// only but not dword aligned.
*73471bf0Spatrickstatic cl::opt<bool>
*73471bf0Spatrick    WidenLoads("amdgpu-late-codegenprepare-widen-constant-loads",
*73471bf0Spatrick               cl::desc("Widen sub-dword constant address space loads in "
*73471bf0Spatrick                        "AMDGPULateCodeGenPrepare"),
*73471bf0Spatrick               cl::ReallyHidden, cl::init(true));
*73471bf0Spatrick
*73471bf0Spatricknamespace {
*73471bf0Spatrick
*73471bf0Spatrickclass AMDGPULateCodeGenPrepare
*73471bf0Spatrick    : public FunctionPass,
*73471bf0Spatrick      public InstVisitor<AMDGPULateCodeGenPrepare, bool> {
*73471bf0Spatrick  Module *Mod = nullptr;
*73471bf0Spatrick  const DataLayout *DL = nullptr;
*73471bf0Spatrick
*73471bf0Spatrick  AssumptionCache *AC = nullptr;
*73471bf0Spatrick  LegacyDivergenceAnalysis *DA = nullptr;
*73471bf0Spatrick
*73471bf0Spatrickpublic:
*73471bf0Spatrick  static char ID;
*73471bf0Spatrick
*73471bf0Spatrick  AMDGPULateCodeGenPrepare() : FunctionPass(ID) {}
*73471bf0Spatrick
*73471bf0Spatrick  StringRef getPassName() const override {
*73471bf0Spatrick    return "AMDGPU IR late optimizations";
*73471bf0Spatrick  }
*73471bf0Spatrick
*73471bf0Spatrick  void getAnalysisUsage(AnalysisUsage &AU) const override {
*73471bf0Spatrick    AU.addRequired<AssumptionCacheTracker>();
*73471bf0Spatrick    AU.addRequired<LegacyDivergenceAnalysis>();
*73471bf0Spatrick    AU.setPreservesAll();
*73471bf0Spatrick  }
*73471bf0Spatrick
*73471bf0Spatrick  bool doInitialization(Module &M) override;
*73471bf0Spatrick  bool runOnFunction(Function &F) override;
*73471bf0Spatrick
*73471bf0Spatrick  bool visitInstruction(Instruction &) { return false; }
*73471bf0Spatrick
*73471bf0Spatrick  // Check if the specified value is at least DWORD aligned.
*73471bf0Spatrick  bool isDWORDAligned(const Value *V) const {
*73471bf0Spatrick    KnownBits Known = computeKnownBits(V, *DL, 0, AC);
*73471bf0Spatrick    return Known.countMinTrailingZeros() >= 2;
*73471bf0Spatrick  }
*73471bf0Spatrick
*73471bf0Spatrick  bool canWidenScalarExtLoad(LoadInst &LI) const;
*73471bf0Spatrick  bool visitLoadInst(LoadInst &LI);
*73471bf0Spatrick};
*73471bf0Spatrick
*73471bf0Spatrick} // end anonymous namespace
*73471bf0Spatrick
*73471bf0Spatrickbool AMDGPULateCodeGenPrepare::doInitialization(Module &M) {
*73471bf0Spatrick  Mod = &M;
*73471bf0Spatrick  DL = &Mod->getDataLayout();
*73471bf0Spatrick  return false;
*73471bf0Spatrick}
*73471bf0Spatrick
*73471bf0Spatrickbool AMDGPULateCodeGenPrepare::runOnFunction(Function &F) {
*73471bf0Spatrick  if (skipFunction(F))
*73471bf0Spatrick    return false;
*73471bf0Spatrick
*73471bf0Spatrick  AC = &getAnalysis<AssumptionCacheTracker>().getAssumptionCache(F);
*73471bf0Spatrick  DA = &getAnalysis<LegacyDivergenceAnalysis>();
*73471bf0Spatrick
*73471bf0Spatrick  bool Changed = false;
*73471bf0Spatrick  for (auto &BB : F)
*73471bf0Spatrick    for (auto BI = BB.begin(), BE = BB.end(); BI != BE; /*EMPTY*/) {
*73471bf0Spatrick      Instruction *I = &*BI++;
*73471bf0Spatrick      Changed |= visit(*I);
*73471bf0Spatrick    }
*73471bf0Spatrick
*73471bf0Spatrick  return Changed;
*73471bf0Spatrick}
*73471bf0Spatrick
*73471bf0Spatrickbool AMDGPULateCodeGenPrepare::canWidenScalarExtLoad(LoadInst &LI) const {
*73471bf0Spatrick  unsigned AS = LI.getPointerAddressSpace();
*73471bf0Spatrick  // Skip non-constant address space.
*73471bf0Spatrick  if (AS != AMDGPUAS::CONSTANT_ADDRESS &&
*73471bf0Spatrick      AS != AMDGPUAS::CONSTANT_ADDRESS_32BIT)
*73471bf0Spatrick    return false;
*73471bf0Spatrick  // Skip non-simple loads.
*73471bf0Spatrick  if (!LI.isSimple())
*73471bf0Spatrick    return false;
*73471bf0Spatrick  auto *Ty = LI.getType();
*73471bf0Spatrick  // Skip aggregate types.
*73471bf0Spatrick  if (Ty->isAggregateType())
*73471bf0Spatrick    return false;
*73471bf0Spatrick  unsigned TySize = DL->getTypeStoreSize(Ty);
*73471bf0Spatrick  // Only handle sub-DWORD loads.
*73471bf0Spatrick  if (TySize >= 4)
*73471bf0Spatrick    return false;
*73471bf0Spatrick  // That load must be at least naturally aligned.
*73471bf0Spatrick  if (LI.getAlign() < DL->getABITypeAlign(Ty))
*73471bf0Spatrick    return false;
*73471bf0Spatrick  // It should be uniform, i.e. a scalar load.
*73471bf0Spatrick  return DA->isUniform(&LI);
*73471bf0Spatrick}
*73471bf0Spatrick
*73471bf0Spatrickbool AMDGPULateCodeGenPrepare::visitLoadInst(LoadInst &LI) {
*73471bf0Spatrick  if (!WidenLoads)
*73471bf0Spatrick    return false;
*73471bf0Spatrick
*73471bf0Spatrick  // Skip if that load is already aligned on DWORD at least as it's handled in
*73471bf0Spatrick  // SDAG.
*73471bf0Spatrick  if (LI.getAlign() >= 4)
*73471bf0Spatrick    return false;
*73471bf0Spatrick
*73471bf0Spatrick  if (!canWidenScalarExtLoad(LI))
*73471bf0Spatrick    return false;
*73471bf0Spatrick
*73471bf0Spatrick  int64_t Offset = 0;
*73471bf0Spatrick  auto *Base =
*73471bf0Spatrick      GetPointerBaseWithConstantOffset(LI.getPointerOperand(), Offset, *DL);
*73471bf0Spatrick  // If that base is not DWORD aligned, it's not safe to perform the following
*73471bf0Spatrick  // transforms.
*73471bf0Spatrick  if (!isDWORDAligned(Base))
*73471bf0Spatrick    return false;
*73471bf0Spatrick
*73471bf0Spatrick  int64_t Adjust = Offset & 0x3;
*73471bf0Spatrick  if (Adjust == 0) {
*73471bf0Spatrick    // With a zero adjust, the original alignment could be promoted with a
*73471bf0Spatrick    // better one.
*73471bf0Spatrick    LI.setAlignment(Align(4));
*73471bf0Spatrick    return true;
*73471bf0Spatrick  }
*73471bf0Spatrick
*73471bf0Spatrick  IRBuilder<> IRB(&LI);
*73471bf0Spatrick  IRB.SetCurrentDebugLocation(LI.getDebugLoc());
*73471bf0Spatrick
*73471bf0Spatrick  unsigned AS = LI.getPointerAddressSpace();
*73471bf0Spatrick  unsigned LdBits = DL->getTypeStoreSize(LI.getType()) * 8;
*73471bf0Spatrick  auto IntNTy = Type::getIntNTy(LI.getContext(), LdBits);
*73471bf0Spatrick
*73471bf0Spatrick  PointerType *Int32PtrTy = Type::getInt32PtrTy(LI.getContext(), AS);
*73471bf0Spatrick  PointerType *Int8PtrTy = Type::getInt8PtrTy(LI.getContext(), AS);
*73471bf0Spatrick  auto *NewPtr = IRB.CreateBitCast(
*73471bf0Spatrick      IRB.CreateConstGEP1_64(
*73471bf0Spatrick          IRB.getInt8Ty(),
*73471bf0Spatrick          IRB.CreatePointerBitCastOrAddrSpaceCast(Base, Int8PtrTy),
*73471bf0Spatrick          Offset - Adjust),
*73471bf0Spatrick      Int32PtrTy);
*73471bf0Spatrick  LoadInst *NewLd = IRB.CreateAlignedLoad(IRB.getInt32Ty(), NewPtr, Align(4));
*73471bf0Spatrick  NewLd->copyMetadata(LI);
*73471bf0Spatrick  NewLd->setMetadata(LLVMContext::MD_range, nullptr);
*73471bf0Spatrick
*73471bf0Spatrick  unsigned ShAmt = Adjust * 8;
*73471bf0Spatrick  auto *NewVal = IRB.CreateBitCast(
*73471bf0Spatrick      IRB.CreateTrunc(IRB.CreateLShr(NewLd, ShAmt), IntNTy), LI.getType());
*73471bf0Spatrick  LI.replaceAllUsesWith(NewVal);
*73471bf0Spatrick  RecursivelyDeleteTriviallyDeadInstructions(&LI);
*73471bf0Spatrick
*73471bf0Spatrick  return true;
*73471bf0Spatrick}
*73471bf0Spatrick
*73471bf0SpatrickINITIALIZE_PASS_BEGIN(AMDGPULateCodeGenPrepare, DEBUG_TYPE,
*73471bf0Spatrick                      "AMDGPU IR late optimizations", false, false)
*73471bf0SpatrickINITIALIZE_PASS_DEPENDENCY(AssumptionCacheTracker)
*73471bf0SpatrickINITIALIZE_PASS_DEPENDENCY(LegacyDivergenceAnalysis)
*73471bf0SpatrickINITIALIZE_PASS_END(AMDGPULateCodeGenPrepare, DEBUG_TYPE,
*73471bf0Spatrick                    "AMDGPU IR late optimizations", false, false)
*73471bf0Spatrick
*73471bf0Spatrickchar AMDGPULateCodeGenPrepare::ID = 0;
*73471bf0Spatrick
*73471bf0SpatrickFunctionPass *llvm::createAMDGPULateCodeGenPreparePass() {
*73471bf0Spatrick  return new AMDGPULateCodeGenPrepare();
*73471bf0Spatrick}