Target/AMDGPU/AMDGPUImageIntrinsicOptimizer.cpp

*5f757f3fSDimitry Andric//===- AMDGPUImageIntrinsicOptimizer.cpp ----------------------------------===//
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
*5f757f3fSDimitry Andric// See https://llvm.org/LICENSE.txt for license information.
*5f757f3fSDimitry Andric// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric//===----------------------------------------------------------------------===//
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// This pass tries to combine multiple image_load intrinsics with dim=2dmsaa
*5f757f3fSDimitry Andric// or dim=2darraymsaa into a single image_msaa_load intrinsic if:
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// - they refer to the same vaddr except for sample_id,
*5f757f3fSDimitry Andric// - they use a constant sample_id and they fall into the same group,
*5f757f3fSDimitry Andric// - they have the same dmask and the number of intrinsics and the number of
*5f757f3fSDimitry Andric//   vaddr/vdata dword transfers is reduced by the combine.
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// Examples for the tradeoff (all are assuming 2DMsaa for vaddr):
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// +----------+-----+-----+-------+---------+------------+---------+----------+
*5f757f3fSDimitry Andric// | popcount | a16 | d16 | #load | vaddr / | #msaa_load | vaddr / | combine? |
*5f757f3fSDimitry Andric// |  (dmask) |     |     |       | vdata   |            | vdata   |          |
*5f757f3fSDimitry Andric// +----------+-----+-----+-------+---------+------------+---------+----------+
*5f757f3fSDimitry Andric// |        1 |   0 |   0 |     4 |  12 / 4 |          1 |   3 / 4 | yes      |
*5f757f3fSDimitry Andric// +----------+-----+-----+-------+---------+------------+---------+----------+
*5f757f3fSDimitry Andric// |        1 |   0 |   0 |     2 |   6 / 2 |          1 |   3 / 4 | yes?     |
*5f757f3fSDimitry Andric// +----------+-----+-----+-------+---------+------------+---------+----------+
*5f757f3fSDimitry Andric// |        2 |   0 |   0 |     4 |  12 / 8 |          2 |   6 / 8 | yes      |
*5f757f3fSDimitry Andric// +----------+-----+-----+-------+---------+------------+---------+----------+
*5f757f3fSDimitry Andric// |        2 |   0 |   0 |     2 |   6 / 4 |          2 |   6 / 8 | no       |
*5f757f3fSDimitry Andric// +----------+-----+-----+-------+---------+------------+---------+----------+
*5f757f3fSDimitry Andric// |        1 |   0 |   1 |     2 |   6 / 2 |          1 |   3 / 2 | yes      |
*5f757f3fSDimitry Andric// +----------+-----+-----+-------+---------+------------+---------+----------+
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// Some cases are of questionable benefit, like the one marked with "yes?"
*5f757f3fSDimitry Andric// above: fewer intrinsics and fewer vaddr and fewer total transfers between SP
*5f757f3fSDimitry Andric// and TX, but higher vdata. We start by erring on the side of converting these
*5f757f3fSDimitry Andric// to MSAA_LOAD.
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// clang-format off
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// This pass will combine intrinsics such as (not neccessarily consecutive):
*5f757f3fSDimitry Andric//  call float @llvm.amdgcn.image.load.2dmsaa.f32.i32(i32 1, i32 %s, i32 %t, i32 0, <8 x i32> %rsrc, i32 0, i32 0)
*5f757f3fSDimitry Andric//  call float @llvm.amdgcn.image.load.2dmsaa.f32.i32(i32 1, i32 %s, i32 %t, i32 1, <8 x i32> %rsrc, i32 0, i32 0)
*5f757f3fSDimitry Andric//  call float @llvm.amdgcn.image.load.2dmsaa.f32.i32(i32 1, i32 %s, i32 %t, i32 2, <8 x i32> %rsrc, i32 0, i32 0)
*5f757f3fSDimitry Andric//  call float @llvm.amdgcn.image.load.2dmsaa.f32.i32(i32 1, i32 %s, i32 %t, i32 3, <8 x i32> %rsrc, i32 0, i32 0)
*5f757f3fSDimitry Andric// ==>
*5f757f3fSDimitry Andric//  call <4 x float> @llvm.amdgcn.image.msaa.load.2dmsaa.v4f32.i32(i32 1, i32 %s, i32 %t, i32 0, <8 x i32> %rsrc, i32 0, i32 0)
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// clang-format on
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// Future improvements:
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// - We may occasionally not want to do the combine if it increases the maximum
*5f757f3fSDimitry Andric//   register pressure.
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// - Ensure clausing when multiple MSAA_LOAD are generated.
*5f757f3fSDimitry Andric//
*5f757f3fSDimitry Andric// Note: Even though the image_msaa_load intrinsic already exists on gfx10, this
*5f757f3fSDimitry Andric// combine only applies to gfx11, due to a limitation in gfx10: the gfx10
*5f757f3fSDimitry Andric// IMAGE_MSAA_LOAD only works correctly with single-channel texture formats, and
*5f757f3fSDimitry Andric// we don't know the format at compile time.
*5f757f3fSDimitry Andric//===----------------------------------------------------------------------===//
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric#include "AMDGPU.h"
*5f757f3fSDimitry Andric#include "AMDGPUInstrInfo.h"
*5f757f3fSDimitry Andric#include "AMDGPUTargetMachine.h"
*5f757f3fSDimitry Andric#include "llvm/IR/Function.h"
*5f757f3fSDimitry Andric#include "llvm/IR/IRBuilder.h"
*5f757f3fSDimitry Andric#include "llvm/IR/IntrinsicInst.h"
*5f757f3fSDimitry Andric#include "llvm/IR/IntrinsicsAMDGPU.h"
*5f757f3fSDimitry Andric#include "llvm/Pass.h"
*5f757f3fSDimitry Andric#include "llvm/Support/raw_ostream.h"
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricusing namespace llvm;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric#define DEBUG_TYPE "amdgpu-image-intrinsic-opt"
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricnamespace {
*5f757f3fSDimitry Andricclass AMDGPUImageIntrinsicOptimizer : public FunctionPass {
*5f757f3fSDimitry Andric  const TargetMachine *TM;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricpublic:
*5f757f3fSDimitry Andric  static char ID;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  AMDGPUImageIntrinsicOptimizer(const TargetMachine *TM = nullptr)
*5f757f3fSDimitry Andric      : FunctionPass(ID), TM(TM) {}
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  bool runOnFunction(Function &F) override;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric}; // End of class AMDGPUImageIntrinsicOptimizer
*5f757f3fSDimitry Andric} // End anonymous namespace
*5f757f3fSDimitry Andric
*5f757f3fSDimitry AndricINITIALIZE_PASS(AMDGPUImageIntrinsicOptimizer, DEBUG_TYPE,
*5f757f3fSDimitry Andric                "AMDGPU Image Intrinsic Optimizer", false, false)
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricchar AMDGPUImageIntrinsicOptimizer::ID = 0;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricvoid addInstToMergeableList(
*5f757f3fSDimitry Andric    IntrinsicInst *II,
*5f757f3fSDimitry Andric    SmallVector<SmallVector<IntrinsicInst *, 4>> &MergeableInsts,
*5f757f3fSDimitry Andric    const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr) {
*5f757f3fSDimitry Andric  for (SmallVector<IntrinsicInst *, 4> &IIList : MergeableInsts) {
*5f757f3fSDimitry Andric    // Check Dim.
*5f757f3fSDimitry Andric    if (IIList.front()->getIntrinsicID() != II->getIntrinsicID())
*5f757f3fSDimitry Andric      continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Check D16.
*5f757f3fSDimitry Andric    if (IIList.front()->getType() != II->getType())
*5f757f3fSDimitry Andric      continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Check all arguments (DMask, VAddr, RSrc etc).
*5f757f3fSDimitry Andric    bool AllEqual = true;
*5f757f3fSDimitry Andric    assert(IIList.front()->arg_size() == II->arg_size());
*5f757f3fSDimitry Andric    for (int I = 1, E = II->arg_size(); AllEqual && I != E; ++I) {
*5f757f3fSDimitry Andric      Value *ArgList = IIList.front()->getArgOperand(I);
*5f757f3fSDimitry Andric      Value *Arg = II->getArgOperand(I);
*5f757f3fSDimitry Andric      if (I == ImageDimIntr->VAddrEnd - 1) {
*5f757f3fSDimitry Andric        // Check FragId group.
*5f757f3fSDimitry Andric        auto FragIdList = cast<ConstantInt>(IIList.front()->getArgOperand(I));
*5f757f3fSDimitry Andric        auto FragId = cast<ConstantInt>(II->getArgOperand(I));
*5f757f3fSDimitry Andric        AllEqual = FragIdList->getValue().udiv(4) == FragId->getValue().udiv(4);
*5f757f3fSDimitry Andric      } else {
*5f757f3fSDimitry Andric        // Check all arguments except FragId.
*5f757f3fSDimitry Andric        AllEqual = ArgList == Arg;
*5f757f3fSDimitry Andric      }
*5f757f3fSDimitry Andric    }
*5f757f3fSDimitry Andric    if (!AllEqual)
*5f757f3fSDimitry Andric      continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Add to the list.
*5f757f3fSDimitry Andric    IIList.emplace_back(II);
*5f757f3fSDimitry Andric    return;
*5f757f3fSDimitry Andric  }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  // Similar instruction not found, so add a new list.
*5f757f3fSDimitry Andric  MergeableInsts.emplace_back(1, II);
*5f757f3fSDimitry Andric  LLVM_DEBUG(dbgs() << "New: " << *II << "\n");
*5f757f3fSDimitry Andric}
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric// Collect list of all instructions we know how to merge in a subset of the
*5f757f3fSDimitry Andric// block. It returns an iterator to the instruction after the last one analyzed.
*5f757f3fSDimitry AndricBasicBlock::iterator collectMergeableInsts(
*5f757f3fSDimitry Andric    BasicBlock::iterator I, BasicBlock::iterator E,
*5f757f3fSDimitry Andric    SmallVector<SmallVector<IntrinsicInst *, 4>> &MergeableInsts) {
*5f757f3fSDimitry Andric  for (; I != E; ++I) {
*5f757f3fSDimitry Andric    // Don't combine if there is a store in the middle or if there is a memory
*5f757f3fSDimitry Andric    // barrier.
*5f757f3fSDimitry Andric    if (I->mayHaveSideEffects()) {
*5f757f3fSDimitry Andric      ++I;
*5f757f3fSDimitry Andric      break;
*5f757f3fSDimitry Andric    }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Ignore non-intrinsics.
*5f757f3fSDimitry Andric    if (IntrinsicInst *II = dyn_cast<IntrinsicInst>(I)) {
*5f757f3fSDimitry Andric      Intrinsic::ID IntrinID = II->getIntrinsicID();
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      // Ignore other intrinsics.
*5f757f3fSDimitry Andric      if (IntrinID != Intrinsic::amdgcn_image_load_2dmsaa &&
*5f757f3fSDimitry Andric          IntrinID != Intrinsic::amdgcn_image_load_2darraymsaa)
*5f757f3fSDimitry Andric        continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      // Check for constant FragId.
*5f757f3fSDimitry Andric      const auto *ImageDimIntr = AMDGPU::getImageDimIntrinsicInfo(IntrinID);
*5f757f3fSDimitry Andric      const uint8_t FragIdIndex = ImageDimIntr->VAddrEnd - 1;
*5f757f3fSDimitry Andric      if (!isa<ConstantInt>(II->getArgOperand(FragIdIndex)))
*5f757f3fSDimitry Andric        continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      LLVM_DEBUG(dbgs() << "Merge: " << *II << "\n");
*5f757f3fSDimitry Andric      addInstToMergeableList(II, MergeableInsts, ImageDimIntr);
*5f757f3fSDimitry Andric    }
*5f757f3fSDimitry Andric  }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  return I;
*5f757f3fSDimitry Andric}
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricbool optimizeSection(ArrayRef<SmallVector<IntrinsicInst *, 4>> MergeableInsts) {
*5f757f3fSDimitry Andric  bool Modified = false;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  SmallVector<Instruction *, 4> InstrsToErase;
*5f757f3fSDimitry Andric  for (const auto &IIList : MergeableInsts) {
*5f757f3fSDimitry Andric    if (IIList.size() <= 1)
*5f757f3fSDimitry Andric      continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Assume the arguments are unchanged and later override them, if needed.
*5f757f3fSDimitry Andric    SmallVector<Value *, 16> Args(IIList.front()->args());
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Validate function argument and return types, extracting overloaded
*5f757f3fSDimitry Andric    // types along the way.
*5f757f3fSDimitry Andric    SmallVector<Type *, 6> OverloadTys;
*5f757f3fSDimitry Andric    Function *F = IIList.front()->getCalledFunction();
*5f757f3fSDimitry Andric    if (!Intrinsic::getIntrinsicSignature(F, OverloadTys))
*5f757f3fSDimitry Andric      continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    Intrinsic::ID IntrinID = IIList.front()->getIntrinsicID();
*5f757f3fSDimitry Andric    const AMDGPU::ImageDimIntrinsicInfo *ImageDimIntr =
*5f757f3fSDimitry Andric        AMDGPU::getImageDimIntrinsicInfo(IntrinID);
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    Type *EltTy = IIList.front()->getType()->getScalarType();
*5f757f3fSDimitry Andric    Type *NewTy = FixedVectorType::get(EltTy, 4);
*5f757f3fSDimitry Andric    OverloadTys[0] = NewTy;
*5f757f3fSDimitry Andric    bool isD16 = EltTy->isHalfTy();
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    ConstantInt *DMask = cast<ConstantInt>(
*5f757f3fSDimitry Andric        IIList.front()->getArgOperand(ImageDimIntr->DMaskIndex));
*5f757f3fSDimitry Andric    unsigned DMaskVal = DMask->getZExtValue() & 0xf;
*5f757f3fSDimitry Andric    unsigned NumElts = popcount(DMaskVal);
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Number of instructions and the number of vaddr/vdata dword transfers
*5f757f3fSDimitry Andric    // should be reduced.
*5f757f3fSDimitry Andric    unsigned NumLoads = IIList.size();
*5f757f3fSDimitry Andric    unsigned NumMsaas = NumElts;
*5f757f3fSDimitry Andric    unsigned NumVAddrLoads = 3 * NumLoads;
*5f757f3fSDimitry Andric    unsigned NumVDataLoads = divideCeil(NumElts, isD16 ? 2 : 1) * NumLoads;
*5f757f3fSDimitry Andric    unsigned NumVAddrMsaas = 3 * NumMsaas;
*5f757f3fSDimitry Andric    unsigned NumVDataMsaas = divideCeil(4, isD16 ? 2 : 1) * NumMsaas;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    if (NumLoads < NumMsaas ||
*5f757f3fSDimitry Andric        (NumVAddrLoads + NumVDataLoads < NumVAddrMsaas + NumVDataMsaas))
*5f757f3fSDimitry Andric      continue;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    const uint8_t FragIdIndex = ImageDimIntr->VAddrEnd - 1;
*5f757f3fSDimitry Andric    auto FragId = cast<ConstantInt>(IIList.front()->getArgOperand(FragIdIndex));
*5f757f3fSDimitry Andric    const APInt &NewFragIdVal = FragId->getValue().udiv(4) * 4;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Create the new instructions.
*5f757f3fSDimitry Andric    IRBuilder<> B(IIList.front());
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Create the new image_msaa_load intrinsic.
*5f757f3fSDimitry Andric    SmallVector<Instruction *, 4> NewCalls;
*5f757f3fSDimitry Andric    while (DMaskVal != 0) {
*5f757f3fSDimitry Andric      unsigned NewMaskVal = 1 << countr_zero(DMaskVal);
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      Intrinsic::ID NewIntrinID;
*5f757f3fSDimitry Andric      if (IntrinID == Intrinsic::amdgcn_image_load_2dmsaa)
*5f757f3fSDimitry Andric        NewIntrinID = Intrinsic::amdgcn_image_msaa_load_2dmsaa;
*5f757f3fSDimitry Andric      else
*5f757f3fSDimitry Andric        NewIntrinID = Intrinsic::amdgcn_image_msaa_load_2darraymsaa;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      Function *NewIntrin = Intrinsic::getDeclaration(
*5f757f3fSDimitry Andric          IIList.front()->getModule(), NewIntrinID, OverloadTys);
*5f757f3fSDimitry Andric      Args[ImageDimIntr->DMaskIndex] =
*5f757f3fSDimitry Andric          ConstantInt::get(DMask->getType(), NewMaskVal);
*5f757f3fSDimitry Andric      Args[FragIdIndex] = ConstantInt::get(FragId->getType(), NewFragIdVal);
*5f757f3fSDimitry Andric      CallInst *NewCall = B.CreateCall(NewIntrin, Args);
*5f757f3fSDimitry Andric      LLVM_DEBUG(dbgs() << "Optimize: " << *NewCall << "\n");
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      NewCalls.push_back(NewCall);
*5f757f3fSDimitry Andric      DMaskVal -= NewMaskVal;
*5f757f3fSDimitry Andric    }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    // Create the new extractelement instructions.
*5f757f3fSDimitry Andric    for (auto &II : IIList) {
*5f757f3fSDimitry Andric      Value *VecOp = nullptr;
*5f757f3fSDimitry Andric      auto Idx = cast<ConstantInt>(II->getArgOperand(FragIdIndex));
*5f757f3fSDimitry Andric      B.SetCurrentDebugLocation(II->getDebugLoc());
*5f757f3fSDimitry Andric      if (NumElts == 1) {
*5f757f3fSDimitry Andric        VecOp = B.CreateExtractElement(NewCalls[0], Idx->getValue().urem(4));
*5f757f3fSDimitry Andric        LLVM_DEBUG(dbgs() << "Add: " << *VecOp << "\n");
*5f757f3fSDimitry Andric      } else {
*5f757f3fSDimitry Andric        VecOp = UndefValue::get(II->getType());
*5f757f3fSDimitry Andric        for (unsigned I = 0; I < NumElts; ++I) {
*5f757f3fSDimitry Andric          VecOp = B.CreateInsertElement(
*5f757f3fSDimitry Andric              VecOp,
*5f757f3fSDimitry Andric              B.CreateExtractElement(NewCalls[I], Idx->getValue().urem(4)), I);
*5f757f3fSDimitry Andric          LLVM_DEBUG(dbgs() << "Add: " << *VecOp << "\n");
*5f757f3fSDimitry Andric        }
*5f757f3fSDimitry Andric      }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      // Replace the old instruction.
*5f757f3fSDimitry Andric      II->replaceAllUsesWith(VecOp);
*5f757f3fSDimitry Andric      VecOp->takeName(II);
*5f757f3fSDimitry Andric      InstrsToErase.push_back(II);
*5f757f3fSDimitry Andric    }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric    Modified = true;
*5f757f3fSDimitry Andric  }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  for (auto I : InstrsToErase)
*5f757f3fSDimitry Andric    I->eraseFromParent();
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  return Modified;
*5f757f3fSDimitry Andric}
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricstatic bool imageIntrinsicOptimizerImpl(Function &F, const TargetMachine *TM) {
*5f757f3fSDimitry Andric  if (!TM)
*5f757f3fSDimitry Andric    return false;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  // This optimization only applies to GFX11 and beyond.
*5f757f3fSDimitry Andric  const GCNSubtarget &ST = TM->getSubtarget<GCNSubtarget>(F);
*5f757f3fSDimitry Andric  if (!AMDGPU::isGFX11Plus(ST) || ST.hasMSAALoadDstSelBug())
*5f757f3fSDimitry Andric    return false;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  Module *M = F.getParent();
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  // Early test to determine if the intrinsics are used.
*5f757f3fSDimitry Andric  if (std::none_of(M->begin(), M->end(), [](Function &F) {
*5f757f3fSDimitry Andric        return !F.users().empty() &&
*5f757f3fSDimitry Andric               (F.getIntrinsicID() == Intrinsic::amdgcn_image_load_2dmsaa ||
*5f757f3fSDimitry Andric                F.getIntrinsicID() == Intrinsic::amdgcn_image_load_2darraymsaa);
*5f757f3fSDimitry Andric      }))
*5f757f3fSDimitry Andric    return false;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  bool Modified = false;
*5f757f3fSDimitry Andric  for (auto &BB : F) {
*5f757f3fSDimitry Andric    BasicBlock::iterator SectionEnd;
*5f757f3fSDimitry Andric    for (BasicBlock::iterator I = BB.begin(), E = BB.end(); I != E;
*5f757f3fSDimitry Andric         I = SectionEnd) {
*5f757f3fSDimitry Andric      SmallVector<SmallVector<IntrinsicInst *, 4>> MergeableInsts;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric      SectionEnd = collectMergeableInsts(I, E, MergeableInsts);
*5f757f3fSDimitry Andric      Modified |= optimizeSection(MergeableInsts);
*5f757f3fSDimitry Andric    }
*5f757f3fSDimitry Andric  }
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  return Modified;
*5f757f3fSDimitry Andric}
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andricbool AMDGPUImageIntrinsicOptimizer::runOnFunction(Function &F) {
*5f757f3fSDimitry Andric  if (skipFunction(F))
*5f757f3fSDimitry Andric    return false;
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  return imageIntrinsicOptimizerImpl(F, TM);
*5f757f3fSDimitry Andric}
*5f757f3fSDimitry Andric
*5f757f3fSDimitry AndricFunctionPass *
*5f757f3fSDimitry Andricllvm::createAMDGPUImageIntrinsicOptimizerPass(const TargetMachine *TM) {
*5f757f3fSDimitry Andric  return new AMDGPUImageIntrinsicOptimizer(TM);
*5f757f3fSDimitry Andric}
*5f757f3fSDimitry Andric
*5f757f3fSDimitry AndricPreservedAnalyses
*5f757f3fSDimitry AndricAMDGPUImageIntrinsicOptimizerPass::run(Function &F,
*5f757f3fSDimitry Andric                                       FunctionAnalysisManager &AM) {
*5f757f3fSDimitry Andric
*5f757f3fSDimitry Andric  bool Changed = imageIntrinsicOptimizerImpl(F, &TM);
*5f757f3fSDimitry Andric  return Changed ? PreservedAnalyses::none() : PreservedAnalyses::all();
*5f757f3fSDimitry Andric}