CodeGen/Thumb2/mve-vecreduce-slp.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve -verify-machineinstrs %s -o - | FileCheck %s

; Various reductions generated fro SLP vectorizing unrolled loops. Generated
; from https://godbolt.org/z/ebxdPh1Kz with some less interesting cases removed.

define i32 @addv2i32i32(ptr %x) {
; CHECK-LABEL: addv2i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrd r0, r1, [r0]
; CHECK-NEXT:    add r0, r1
; CHECK-NEXT:    bx lr
entry:
  %0 = load i32, ptr %x, align 4
  %arrayidx.1 = getelementptr inbounds i32, ptr %x, i32 1
  %1 = load i32, ptr %arrayidx.1, align 4
  %add.1 = add nsw i32 %1, %0
  ret i32 %add.1
}

define i32 @addv4i32i32(ptr %x) {
; CHECK-LABEL: addv4i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vaddv.u32 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i32>, ptr %x, align 4
  %1 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %0)
  ret i32 %1
}

define i32 @addv8i32i32(ptr %x) {
; CHECK-LABEL: addv8i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q1, [r0]
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u32 r0, q1
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i32>, ptr %x, align 4
  %1 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %0)
  ret i32 %1
}

define i32 @addv16i32i32(ptr %x) {
; CHECK-LABEL: addv16i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q1, [r0]
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i32>, ptr %x, align 4
  %1 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %0)
  ret i32 %1
}

define i32 @addv24i32i32(ptr %x) {
; CHECK-LABEL: addv24i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q1, [r0]
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #64]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #80]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i32>, ptr %x, align 4
  %arrayidx.8 = getelementptr inbounds i32, ptr %x, i32 8
  %1 = load <16 x i32>, ptr %arrayidx.8, align 4
  %2 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %1)
  %3 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %0)
  %op.rdx = add nsw i32 %2, %3
  ret i32 %op.rdx
}

define i32 @addv32i32i32(ptr %x) {
; CHECK-LABEL: addv32i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q1, [r0]
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    mov r1, r0
; CHECK-NEXT:    vaddv.u32 r0, q1
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    vldrw.u32 q0, [r1, #32]
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    vldrw.u32 q0, [r1, #48]
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    vldrw.u32 q0, [r1, #64]
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    vldrw.u32 q0, [r1, #80]
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    vldrw.u32 q0, [r1, #96]
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    vldrw.u32 q0, [r1, #112]
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i32>, ptr %x, align 4
  %1 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %0)
  ret i32 %1
}

define i32 @addv64i32i32(ptr %x) {
; CHECK-LABEL: addv64i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q1, [r0]
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #64]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #80]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #96]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #112]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #128]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #144]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #160]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #176]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #192]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #208]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #224]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #240]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <64 x i32>, ptr %x, align 4
  %1 = call i32 @llvm.vector.reduce.add.v64i32(<64 x i32> %0)
  ret i32 %1
}

define i32 @addv128i32i32(ptr %x) {
; CHECK-LABEL: addv128i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q1, [r0]
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #64]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #80]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #96]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #112]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #128]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #144]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #160]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #176]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #192]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #208]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #224]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #240]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #256]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #272]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #288]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #304]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #320]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #336]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #352]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #368]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #384]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #400]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #416]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #432]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #448]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #464]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #480]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #496]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <4 x i32>, ptr %x, align 4
  %0 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load)
  %1 = getelementptr inbounds i32, ptr %x, i32 4
  %wide.load.1 = load <4 x i32>, ptr %1, align 4
  %2 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.1)
  %3 = add i32 %2, %0
  %4 = getelementptr inbounds i32, ptr %x, i32 8
  %wide.load.2 = load <4 x i32>, ptr %4, align 4
  %5 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.2)
  %6 = add i32 %5, %3
  %7 = getelementptr inbounds i32, ptr %x, i32 12
  %wide.load.3 = load <4 x i32>, ptr %7, align 4
  %8 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.3)
  %9 = add i32 %8, %6
  %10 = getelementptr inbounds i32, ptr %x, i32 16
  %wide.load.4 = load <4 x i32>, ptr %10, align 4
  %11 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.4)
  %12 = add i32 %11, %9
  %13 = getelementptr inbounds i32, ptr %x, i32 20
  %wide.load.5 = load <4 x i32>, ptr %13, align 4
  %14 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.5)
  %15 = add i32 %14, %12
  %16 = getelementptr inbounds i32, ptr %x, i32 24
  %wide.load.6 = load <4 x i32>, ptr %16, align 4
  %17 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.6)
  %18 = add i32 %17, %15
  %19 = getelementptr inbounds i32, ptr %x, i32 28
  %wide.load.7 = load <4 x i32>, ptr %19, align 4
  %20 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.7)
  %21 = add i32 %20, %18
  %22 = getelementptr inbounds i32, ptr %x, i32 32
  %wide.load.8 = load <4 x i32>, ptr %22, align 4
  %23 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.8)
  %24 = add i32 %23, %21
  %25 = getelementptr inbounds i32, ptr %x, i32 36
  %wide.load.9 = load <4 x i32>, ptr %25, align 4
  %26 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.9)
  %27 = add i32 %26, %24
  %28 = getelementptr inbounds i32, ptr %x, i32 40
  %wide.load.10 = load <4 x i32>, ptr %28, align 4
  %29 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.10)
  %30 = add i32 %29, %27
  %31 = getelementptr inbounds i32, ptr %x, i32 44
  %wide.load.11 = load <4 x i32>, ptr %31, align 4
  %32 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.11)
  %33 = add i32 %32, %30
  %34 = getelementptr inbounds i32, ptr %x, i32 48
  %wide.load.12 = load <4 x i32>, ptr %34, align 4
  %35 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.12)
  %36 = add i32 %35, %33
  %37 = getelementptr inbounds i32, ptr %x, i32 52
  %wide.load.13 = load <4 x i32>, ptr %37, align 4
  %38 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.13)
  %39 = add i32 %38, %36
  %40 = getelementptr inbounds i32, ptr %x, i32 56
  %wide.load.14 = load <4 x i32>, ptr %40, align 4
  %41 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.14)
  %42 = add i32 %41, %39
  %43 = getelementptr inbounds i32, ptr %x, i32 60
  %wide.load.15 = load <4 x i32>, ptr %43, align 4
  %44 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.15)
  %45 = add i32 %44, %42
  %46 = getelementptr inbounds i32, ptr %x, i32 64
  %wide.load.16 = load <4 x i32>, ptr %46, align 4
  %47 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.16)
  %48 = add i32 %47, %45
  %49 = getelementptr inbounds i32, ptr %x, i32 68
  %wide.load.17 = load <4 x i32>, ptr %49, align 4
  %50 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.17)
  %51 = add i32 %50, %48
  %52 = getelementptr inbounds i32, ptr %x, i32 72
  %wide.load.18 = load <4 x i32>, ptr %52, align 4
  %53 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.18)
  %54 = add i32 %53, %51
  %55 = getelementptr inbounds i32, ptr %x, i32 76
  %wide.load.19 = load <4 x i32>, ptr %55, align 4
  %56 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.19)
  %57 = add i32 %56, %54
  %58 = getelementptr inbounds i32, ptr %x, i32 80
  %wide.load.20 = load <4 x i32>, ptr %58, align 4
  %59 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.20)
  %60 = add i32 %59, %57
  %61 = getelementptr inbounds i32, ptr %x, i32 84
  %wide.load.21 = load <4 x i32>, ptr %61, align 4
  %62 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.21)
  %63 = add i32 %62, %60
  %64 = getelementptr inbounds i32, ptr %x, i32 88
  %wide.load.22 = load <4 x i32>, ptr %64, align 4
  %65 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.22)
  %66 = add i32 %65, %63
  %67 = getelementptr inbounds i32, ptr %x, i32 92
  %wide.load.23 = load <4 x i32>, ptr %67, align 4
  %68 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.23)
  %69 = add i32 %68, %66
  %70 = getelementptr inbounds i32, ptr %x, i32 96
  %wide.load.24 = load <4 x i32>, ptr %70, align 4
  %71 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.24)
  %72 = add i32 %71, %69
  %73 = getelementptr inbounds i32, ptr %x, i32 100
  %wide.load.25 = load <4 x i32>, ptr %73, align 4
  %74 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.25)
  %75 = add i32 %74, %72
  %76 = getelementptr inbounds i32, ptr %x, i32 104
  %wide.load.26 = load <4 x i32>, ptr %76, align 4
  %77 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.26)
  %78 = add i32 %77, %75
  %79 = getelementptr inbounds i32, ptr %x, i32 108
  %wide.load.27 = load <4 x i32>, ptr %79, align 4
  %80 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.27)
  %81 = add i32 %80, %78
  %82 = getelementptr inbounds i32, ptr %x, i32 112
  %wide.load.28 = load <4 x i32>, ptr %82, align 4
  %83 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.28)
  %84 = add i32 %83, %81
  %85 = getelementptr inbounds i32, ptr %x, i32 116
  %wide.load.29 = load <4 x i32>, ptr %85, align 4
  %86 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.29)
  %87 = add i32 %86, %84
  %88 = getelementptr inbounds i32, ptr %x, i32 120
  %wide.load.30 = load <4 x i32>, ptr %88, align 4
  %89 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.30)
  %90 = add i32 %89, %87
  %91 = getelementptr inbounds i32, ptr %x, i32 124
  %wide.load.31 = load <4 x i32>, ptr %91, align 4
  %92 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %wide.load.31)
  %93 = add i32 %92, %90
  ret i32 %93
}

define i32 @addv2i32i16(ptr %x) {
; CHECK-LABEL: addv2i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrsh.w r1, [r0]
; CHECK-NEXT:    ldrsh.w r0, [r0, #2]
; CHECK-NEXT:    add r0, r1
; CHECK-NEXT:    bx lr
entry:
  %0 = load i16, ptr %x, align 2
  %conv = sext i16 %0 to i32
  %arrayidx.1 = getelementptr inbounds i16, ptr %x, i32 1
  %1 = load i16, ptr %arrayidx.1, align 2
  %conv.1 = sext i16 %1 to i32
  %add.1 = add nsw i32 %conv, %conv.1
  ret i32 %add.1
}

define i32 @addv4i32i16(ptr %x) {
; CHECK-LABEL: addv4i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q0, [r0]
; CHECK-NEXT:    vaddv.u32 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i16>, ptr %x, align 2
  %1 = sext <4 x i16> %0 to <4 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %1)
  ret i32 %2
}

define i32 @addv8i32i16(ptr %x) {
; CHECK-LABEL: addv8i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vaddv.s16 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i16>, ptr %x, align 2
  %1 = sext <8 x i16> %0 to <8 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %1)
  ret i32 %2
}

define i32 @addv16i32i16(ptr %x) {
; CHECK-LABEL: addv16i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q1, [r0]
; CHECK-NEXT:    vldrh.s32 q0, [r0, #8]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #16]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #24]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i16>, ptr %x, align 2
  %1 = sext <16 x i16> %0 to <16 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %1)
  ret i32 %2
}

define i32 @addv24i32i16(ptr %x) {
; CHECK-LABEL: addv24i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q1, [r0]
; CHECK-NEXT:    vldrh.s32 q0, [r0, #8]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #16]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #24]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i16>, ptr %x, align 2
  %1 = sext <16 x i16> %0 to <16 x i32>
  %arrayidx.16 = getelementptr inbounds i16, ptr %x, i32 16
  %2 = load <8 x i16>, ptr %arrayidx.16, align 2
  %3 = sext <8 x i16> %2 to <8 x i32>
  %4 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %1)
  %5 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %3)
  %op.rdx = add nsw i32 %4, %5
  ret i32 %op.rdx
}

define i32 @addv32i32i16(ptr %x) {
; CHECK-LABEL: addv32i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q1, [r0]
; CHECK-NEXT:    vldrh.s32 q0, [r0, #8]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #16]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #24]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #40]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #56]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i16>, ptr %x, align 2
  %1 = sext <32 x i16> %0 to <32 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %1)
  ret i32 %2
}

define i32 @addv64i32i16(ptr %x) {
; CHECK-LABEL: addv64i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q1, [r0]
; CHECK-NEXT:    vldrh.s32 q0, [r0, #8]
; CHECK-NEXT:    ldrsh.w r1, [r0, #120]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    ldrsh.w r3, [r0, #122]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #16]
; CHECK-NEXT:    ldrsh.w r12, [r0, #124]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #24]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #40]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #56]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #64]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #72]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #80]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #88]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #96]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #112]
; CHECK-NEXT:    ldrsh.w r0, [r0, #126]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    add r1, r2
; CHECK-NEXT:    add r1, r3
; CHECK-NEXT:    add r1, r12
; CHECK-NEXT:    add r0, r1
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i16>, ptr %x, align 2
  %1 = sext <32 x i16> %0 to <32 x i32>
  %arrayidx.32 = getelementptr inbounds i16, ptr %x, i32 32
  %2 = load <16 x i16>, ptr %arrayidx.32, align 2
  %3 = sext <16 x i16> %2 to <16 x i32>
  %arrayidx.48 = getelementptr inbounds i16, ptr %x, i32 48
  %4 = load <8 x i16>, ptr %arrayidx.48, align 2
  %5 = sext <8 x i16> %4 to <8 x i32>
  %arrayidx.56 = getelementptr inbounds i16, ptr %x, i32 56
  %6 = load <4 x i16>, ptr %arrayidx.56, align 2
  %7 = sext <4 x i16> %6 to <4 x i32>
  %arrayidx.60 = getelementptr inbounds i16, ptr %x, i32 60
  %8 = load i16, ptr %arrayidx.60, align 2
  %conv.60 = sext i16 %8 to i32
  %arrayidx.61 = getelementptr inbounds i16, ptr %x, i32 61
  %9 = load i16, ptr %arrayidx.61, align 2
  %conv.61 = sext i16 %9 to i32
  %arrayidx.62 = getelementptr inbounds i16, ptr %x, i32 62
  %10 = load i16, ptr %arrayidx.62, align 2
  %conv.62 = sext i16 %10 to i32
  %11 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %1)
  %12 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %3)
  %op.rdx = add nsw i32 %11, %12
  %13 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %5)
  %op.rdx8 = add nsw i32 %op.rdx, %13
  %14 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %7)
  %op.rdx9 = add nsw i32 %op.rdx8, %14
  %15 = add nsw i32 %op.rdx9, %conv.60
  %16 = add nsw i32 %15, %conv.61
  %17 = add nsw i32 %16, %conv.62
  %arrayidx.63 = getelementptr inbounds i16, ptr %x, i32 63
  %18 = load i16, ptr %arrayidx.63, align 2
  %conv.63 = sext i16 %18 to i32
  %add.63 = add nsw i32 %17, %conv.63
  ret i32 %add.63
}

define i32 @addv128i32i16(ptr %x) {
; CHECK-LABEL: addv128i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q1, [r0]
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vaddv.s16 r2, q1
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #48]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #64]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #80]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #96]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #112]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #128]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #144]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #160]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #176]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #192]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #208]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #224]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #240]
; CHECK-NEXT:    vaddva.s16 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <8 x i16>, ptr %x, align 2
  %0 = sext <8 x i16> %wide.load to <8 x i32>
  %1 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %0)
  %2 = getelementptr inbounds i16, ptr %x, i32 8
  %wide.load.1 = load <8 x i16>, ptr %2, align 2
  %3 = sext <8 x i16> %wide.load.1 to <8 x i32>
  %4 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %3)
  %5 = add i32 %4, %1
  %6 = getelementptr inbounds i16, ptr %x, i32 16
  %wide.load.2 = load <8 x i16>, ptr %6, align 2
  %7 = sext <8 x i16> %wide.load.2 to <8 x i32>
  %8 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %7)
  %9 = add i32 %8, %5
  %10 = getelementptr inbounds i16, ptr %x, i32 24
  %wide.load.3 = load <8 x i16>, ptr %10, align 2
  %11 = sext <8 x i16> %wide.load.3 to <8 x i32>
  %12 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %11)
  %13 = add i32 %12, %9
  %14 = getelementptr inbounds i16, ptr %x, i32 32
  %wide.load.4 = load <8 x i16>, ptr %14, align 2
  %15 = sext <8 x i16> %wide.load.4 to <8 x i32>
  %16 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %15)
  %17 = add i32 %16, %13
  %18 = getelementptr inbounds i16, ptr %x, i32 40
  %wide.load.5 = load <8 x i16>, ptr %18, align 2
  %19 = sext <8 x i16> %wide.load.5 to <8 x i32>
  %20 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %19)
  %21 = add i32 %20, %17
  %22 = getelementptr inbounds i16, ptr %x, i32 48
  %wide.load.6 = load <8 x i16>, ptr %22, align 2
  %23 = sext <8 x i16> %wide.load.6 to <8 x i32>
  %24 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %23)
  %25 = add i32 %24, %21
  %26 = getelementptr inbounds i16, ptr %x, i32 56
  %wide.load.7 = load <8 x i16>, ptr %26, align 2
  %27 = sext <8 x i16> %wide.load.7 to <8 x i32>
  %28 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %27)
  %29 = add i32 %28, %25
  %30 = getelementptr inbounds i16, ptr %x, i32 64
  %wide.load.8 = load <8 x i16>, ptr %30, align 2
  %31 = sext <8 x i16> %wide.load.8 to <8 x i32>
  %32 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %31)
  %33 = add i32 %32, %29
  %34 = getelementptr inbounds i16, ptr %x, i32 72
  %wide.load.9 = load <8 x i16>, ptr %34, align 2
  %35 = sext <8 x i16> %wide.load.9 to <8 x i32>
  %36 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %35)
  %37 = add i32 %36, %33
  %38 = getelementptr inbounds i16, ptr %x, i32 80
  %wide.load.10 = load <8 x i16>, ptr %38, align 2
  %39 = sext <8 x i16> %wide.load.10 to <8 x i32>
  %40 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %39)
  %41 = add i32 %40, %37
  %42 = getelementptr inbounds i16, ptr %x, i32 88
  %wide.load.11 = load <8 x i16>, ptr %42, align 2
  %43 = sext <8 x i16> %wide.load.11 to <8 x i32>
  %44 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %43)
  %45 = add i32 %44, %41
  %46 = getelementptr inbounds i16, ptr %x, i32 96
  %wide.load.12 = load <8 x i16>, ptr %46, align 2
  %47 = sext <8 x i16> %wide.load.12 to <8 x i32>
  %48 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %47)
  %49 = add i32 %48, %45
  %50 = getelementptr inbounds i16, ptr %x, i32 104
  %wide.load.13 = load <8 x i16>, ptr %50, align 2
  %51 = sext <8 x i16> %wide.load.13 to <8 x i32>
  %52 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %51)
  %53 = add i32 %52, %49
  %54 = getelementptr inbounds i16, ptr %x, i32 112
  %wide.load.14 = load <8 x i16>, ptr %54, align 2
  %55 = sext <8 x i16> %wide.load.14 to <8 x i32>
  %56 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %55)
  %57 = add i32 %56, %53
  %58 = getelementptr inbounds i16, ptr %x, i32 120
  %wide.load.15 = load <8 x i16>, ptr %58, align 2
  %59 = sext <8 x i16> %wide.load.15 to <8 x i32>
  %60 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %59)
  %61 = add i32 %60, %57
  ret i32 %61
}

define i32 @addv2i32i8(ptr %x) {
; CHECK-LABEL: addv2i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrb r1, [r0]
; CHECK-NEXT:    ldrb r0, [r0, #1]
; CHECK-NEXT:    add r0, r1
; CHECK-NEXT:    bx lr
entry:
  %0 = load i8, ptr %x, align 1
  %conv = zext i8 %0 to i32
  %arrayidx.1 = getelementptr inbounds i8, ptr %x, i32 1
  %1 = load i8, ptr %arrayidx.1, align 1
  %conv.1 = zext i8 %1 to i32
  %add.1 = add nuw nsw i32 %conv, %conv.1
  ret i32 %add.1
}

define i32 @addv4i32i8(ptr %x) {
; CHECK-LABEL: addv4i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u32 q0, [r0]
; CHECK-NEXT:    vaddv.u32 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i8>, ptr %x, align 1
  %1 = zext <4 x i8> %0 to <4 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %1)
  ret i32 %2
}

define i32 @addv8i32i8(ptr %x) {
; CHECK-LABEL: addv8i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u16 q0, [r0]
; CHECK-NEXT:    vaddv.u16 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i8>, ptr %x, align 1
  %1 = zext <8 x i8> %0 to <8 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %1)
  ret i32 %2
}

define i32 @addv16i32i8(ptr %x) {
; CHECK-LABEL: addv16i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vaddv.u8 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i8>, ptr %x, align 1
  %1 = zext <16 x i8> %0 to <16 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %1)
  ret i32 %2
}

define i32 @addv24i32i8(ptr %x) {
; CHECK-LABEL: addv24i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q1, [r0]
; CHECK-NEXT:    vldrb.u16 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u8 r0, q1
; CHECK-NEXT:    vaddva.u16 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i8>, ptr %x, align 1
  %1 = zext <16 x i8> %0 to <16 x i32>
  %arrayidx.16 = getelementptr inbounds i8, ptr %x, i32 16
  %2 = load <8 x i8>, ptr %arrayidx.16, align 1
  %3 = zext <8 x i8> %2 to <8 x i32>
  %4 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %1)
  %5 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %3)
  %op.rdx = add nuw nsw i32 %4, %5
  ret i32 %op.rdx
}

define i32 @addv32i32i8(ptr %x) {
; CHECK-LABEL: addv32i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u32 q1, [r0]
; CHECK-NEXT:    vldrb.u32 q0, [r0, #4]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #8]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #12]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #16]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #20]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #24]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #28]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i8>, ptr %x, align 1
  %1 = zext <32 x i8> %0 to <32 x i32>
  %2 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %1)
  ret i32 %2
}

define i32 @addv64i32i8(ptr %x) {
; CHECK-LABEL: addv64i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u32 q1, [r0]
; CHECK-NEXT:    vldrb.u32 q0, [r0, #4]
; CHECK-NEXT:    ldrb.w r1, [r0, #60]
; CHECK-NEXT:    vaddv.u32 r2, q1
; CHECK-NEXT:    ldrb.w r3, [r0, #61]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #8]
; CHECK-NEXT:    ldrb.w r12, [r0, #62]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #12]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #16]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #20]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #24]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #28]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u16 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrb.u32 q0, [r0, #56]
; CHECK-NEXT:    ldrb.w r0, [r0, #63]
; CHECK-NEXT:    vaddva.u32 r2, q0
; CHECK-NEXT:    add r1, r2
; CHECK-NEXT:    add r1, r3
; CHECK-NEXT:    add r1, r12
; CHECK-NEXT:    add r0, r1
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i8>, ptr %x, align 1
  %1 = zext <32 x i8> %0 to <32 x i32>
  %arrayidx.32 = getelementptr inbounds i8, ptr %x, i32 32
  %2 = load <16 x i8>, ptr %arrayidx.32, align 1
  %3 = zext <16 x i8> %2 to <16 x i32>
  %arrayidx.48 = getelementptr inbounds i8, ptr %x, i32 48
  %4 = load <8 x i8>, ptr %arrayidx.48, align 1
  %5 = zext <8 x i8> %4 to <8 x i32>
  %arrayidx.56 = getelementptr inbounds i8, ptr %x, i32 56
  %6 = load <4 x i8>, ptr %arrayidx.56, align 1
  %7 = zext <4 x i8> %6 to <4 x i32>
  %arrayidx.60 = getelementptr inbounds i8, ptr %x, i32 60
  %8 = load i8, ptr %arrayidx.60, align 1
  %conv.60 = zext i8 %8 to i32
  %arrayidx.61 = getelementptr inbounds i8, ptr %x, i32 61
  %9 = load i8, ptr %arrayidx.61, align 1
  %conv.61 = zext i8 %9 to i32
  %arrayidx.62 = getelementptr inbounds i8, ptr %x, i32 62
  %10 = load i8, ptr %arrayidx.62, align 1
  %conv.62 = zext i8 %10 to i32
  %11 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %1)
  %12 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %3)
  %op.rdx = add nuw nsw i32 %11, %12
  %13 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %5)
  %op.rdx8 = add nuw nsw i32 %op.rdx, %13
  %14 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %7)
  %op.rdx9 = add nuw nsw i32 %op.rdx8, %14
  %15 = add nuw nsw i32 %op.rdx9, %conv.60
  %16 = add nuw nsw i32 %15, %conv.61
  %17 = add nuw nsw i32 %16, %conv.62
  %arrayidx.63 = getelementptr inbounds i8, ptr %x, i32 63
  %18 = load i8, ptr %arrayidx.63, align 1
  %conv.63 = zext i8 %18 to i32
  %add.63 = add nuw nsw i32 %17, %conv.63
  ret i32 %add.63
}

define i32 @addv128i32i8(ptr %x) {
; CHECK-LABEL: addv128i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q1, [r0]
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    mov r1, r0
; CHECK-NEXT:    vaddv.u8 r0, q1
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    vldrb.u8 q0, [r1, #32]
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    vldrb.u8 q0, [r1, #48]
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    vldrb.u8 q0, [r1, #64]
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    vldrb.u8 q0, [r1, #80]
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    vldrb.u8 q0, [r1, #96]
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    vldrb.u8 q0, [r1, #112]
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <16 x i8>, ptr %x, align 1
  %0 = zext <16 x i8> %wide.load to <16 x i32>
  %1 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %0)
  %2 = getelementptr inbounds i8, ptr %x, i32 16
  %wide.load.1 = load <16 x i8>, ptr %2, align 1
  %3 = zext <16 x i8> %wide.load.1 to <16 x i32>
  %4 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %3)
  %5 = add i32 %4, %1
  %6 = getelementptr inbounds i8, ptr %x, i32 32
  %wide.load.2 = load <16 x i8>, ptr %6, align 1
  %7 = zext <16 x i8> %wide.load.2 to <16 x i32>
  %8 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %7)
  %9 = add i32 %8, %5
  %10 = getelementptr inbounds i8, ptr %x, i32 48
  %wide.load.3 = load <16 x i8>, ptr %10, align 1
  %11 = zext <16 x i8> %wide.load.3 to <16 x i32>
  %12 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %11)
  %13 = add i32 %12, %9
  %14 = getelementptr inbounds i8, ptr %x, i32 64
  %wide.load.4 = load <16 x i8>, ptr %14, align 1
  %15 = zext <16 x i8> %wide.load.4 to <16 x i32>
  %16 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %15)
  %17 = add i32 %16, %13
  %18 = getelementptr inbounds i8, ptr %x, i32 80
  %wide.load.5 = load <16 x i8>, ptr %18, align 1
  %19 = zext <16 x i8> %wide.load.5 to <16 x i32>
  %20 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %19)
  %21 = add i32 %20, %17
  %22 = getelementptr inbounds i8, ptr %x, i32 96
  %wide.load.6 = load <16 x i8>, ptr %22, align 1
  %23 = zext <16 x i8> %wide.load.6 to <16 x i32>
  %24 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %23)
  %25 = add i32 %24, %21
  %26 = getelementptr inbounds i8, ptr %x, i32 112
  %wide.load.7 = load <16 x i8>, ptr %26, align 1
  %27 = zext <16 x i8> %wide.load.7 to <16 x i32>
  %28 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %27)
  %29 = add i32 %28, %25
  ret i32 %29
}

define signext i16 @addv2i16i16(ptr %x) {
; CHECK-LABEL: addv2i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrh r1, [r0]
; CHECK-NEXT:    ldrh r0, [r0, #2]
; CHECK-NEXT:    add r0, r1
; CHECK-NEXT:    sxth r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load i16, ptr %x, align 2
  %arrayidx.1 = getelementptr inbounds i16, ptr %x, i32 1
  %1 = load i16, ptr %arrayidx.1, align 2
  %add.1 = add i16 %1, %0
  ret i16 %add.1
}

define signext i16 @addv4i16i16(ptr %x) {
; CHECK-LABEL: addv4i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u32 q0, [r0]
; CHECK-NEXT:    vaddv.u32 r0, q0
; CHECK-NEXT:    sxth r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i16>, ptr %x, align 2
  %1 = call i16 @llvm.vector.reduce.add.v4i16(<4 x i16> %0)
  ret i16 %1
}

define signext i16 @addv8i16i16(ptr %x) {
; CHECK-LABEL: addv8i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vaddv.u16 r0, q0
; CHECK-NEXT:    sxth r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i16>, ptr %x, align 2
  %1 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %0)
  ret i16 %1
}

define signext i16 @addv16i16i16(ptr %x) {
; CHECK-LABEL: addv16i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q1, [r0]
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u16 r0, q1
; CHECK-NEXT:    vaddva.u16 r0, q0
; CHECK-NEXT:    sxth r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i16>, ptr %x, align 2
  %1 = call i16 @llvm.vector.reduce.add.v16i16(<16 x i16> %0)
  ret i16 %1
}

define signext i16 @addv24i16i16(ptr %x) {
; CHECK-LABEL: addv24i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q1, [r0]
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u16 r2, q1
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i16>, ptr %x, align 2
  %arrayidx.8 = getelementptr inbounds i16, ptr %x, i32 8
  %1 = load <16 x i16>, ptr %arrayidx.8, align 2
  %2 = call i16 @llvm.vector.reduce.add.v16i16(<16 x i16> %1)
  %3 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %0)
  %op.rdx = add i16 %2, %3
  ret i16 %op.rdx
}

define signext i16 @addv32i16i16(ptr %x) {
; CHECK-LABEL: addv32i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q1, [r0]
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u16 r2, q1
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i16>, ptr %x, align 2
  %1 = call i16 @llvm.vector.reduce.add.v32i16(<32 x i16> %0)
  ret i16 %1
}

define signext i16 @addv64i16i16(ptr %x) {
; CHECK-LABEL: addv64i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q1, [r0]
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u16 r2, q1
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #64]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #80]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #96]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #112]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <64 x i16>, ptr %x, align 2
  %1 = call i16 @llvm.vector.reduce.add.v64i16(<64 x i16> %0)
  ret i16 %1
}

define signext i16 @addv128i16i16(ptr %x) {
; CHECK-LABEL: addv128i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q1, [r0]
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u16 r2, q1
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #64]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #80]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #96]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #112]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #128]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #144]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #160]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #176]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #192]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #208]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #224]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #240]
; CHECK-NEXT:    vaddva.u16 r2, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <8 x i16>, ptr %x, align 2
  %0 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load)
  %1 = getelementptr inbounds i16, ptr %x, i32 8
  %wide.load.1 = load <8 x i16>, ptr %1, align 2
  %2 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.1)
  %3 = add i16 %2, %0
  %4 = getelementptr inbounds i16, ptr %x, i32 16
  %wide.load.2 = load <8 x i16>, ptr %4, align 2
  %5 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.2)
  %6 = add i16 %5, %3
  %7 = getelementptr inbounds i16, ptr %x, i32 24
  %wide.load.3 = load <8 x i16>, ptr %7, align 2
  %8 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.3)
  %9 = add i16 %8, %6
  %10 = getelementptr inbounds i16, ptr %x, i32 32
  %wide.load.4 = load <8 x i16>, ptr %10, align 2
  %11 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.4)
  %12 = add i16 %11, %9
  %13 = getelementptr inbounds i16, ptr %x, i32 40
  %wide.load.5 = load <8 x i16>, ptr %13, align 2
  %14 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.5)
  %15 = add i16 %14, %12
  %16 = getelementptr inbounds i16, ptr %x, i32 48
  %wide.load.6 = load <8 x i16>, ptr %16, align 2
  %17 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.6)
  %18 = add i16 %17, %15
  %19 = getelementptr inbounds i16, ptr %x, i32 56
  %wide.load.7 = load <8 x i16>, ptr %19, align 2
  %20 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.7)
  %21 = add i16 %20, %18
  %22 = getelementptr inbounds i16, ptr %x, i32 64
  %wide.load.8 = load <8 x i16>, ptr %22, align 2
  %23 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.8)
  %24 = add i16 %23, %21
  %25 = getelementptr inbounds i16, ptr %x, i32 72
  %wide.load.9 = load <8 x i16>, ptr %25, align 2
  %26 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.9)
  %27 = add i16 %26, %24
  %28 = getelementptr inbounds i16, ptr %x, i32 80
  %wide.load.10 = load <8 x i16>, ptr %28, align 2
  %29 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.10)
  %30 = add i16 %29, %27
  %31 = getelementptr inbounds i16, ptr %x, i32 88
  %wide.load.11 = load <8 x i16>, ptr %31, align 2
  %32 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.11)
  %33 = add i16 %32, %30
  %34 = getelementptr inbounds i16, ptr %x, i32 96
  %wide.load.12 = load <8 x i16>, ptr %34, align 2
  %35 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.12)
  %36 = add i16 %35, %33
  %37 = getelementptr inbounds i16, ptr %x, i32 104
  %wide.load.13 = load <8 x i16>, ptr %37, align 2
  %38 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.13)
  %39 = add i16 %38, %36
  %40 = getelementptr inbounds i16, ptr %x, i32 112
  %wide.load.14 = load <8 x i16>, ptr %40, align 2
  %41 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.14)
  %42 = add i16 %41, %39
  %43 = getelementptr inbounds i16, ptr %x, i32 120
  %wide.load.15 = load <8 x i16>, ptr %43, align 2
  %44 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %wide.load.15)
  %45 = add i16 %44, %42
  ret i16 %45
}

define zeroext i8 @addv2i8i8(ptr %x) {
; CHECK-LABEL: addv2i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrb r1, [r0]
; CHECK-NEXT:    ldrb r0, [r0, #1]
; CHECK-NEXT:    add r0, r1
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load i8, ptr %x, align 1
  %arrayidx.1 = getelementptr inbounds i8, ptr %x, i32 1
  %1 = load i8, ptr %arrayidx.1, align 1
  %add.1 = add i8 %1, %0
  ret i8 %add.1
}

define zeroext i8 @addv4i8i8(ptr %x) {
; CHECK-LABEL: addv4i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u32 q0, [r0]
; CHECK-NEXT:    vaddv.u32 r0, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i8>, ptr %x, align 1
  %1 = call i8 @llvm.vector.reduce.add.v4i8(<4 x i8> %0)
  ret i8 %1
}

define zeroext i8 @addv8i8i8(ptr %x) {
; CHECK-LABEL: addv8i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u16 q0, [r0]
; CHECK-NEXT:    vaddv.u16 r0, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i8>, ptr %x, align 1
  %1 = call i8 @llvm.vector.reduce.add.v8i8(<8 x i8> %0)
  ret i8 %1
}

define zeroext i8 @addv16i8i8(ptr %x) {
; CHECK-LABEL: addv16i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vaddv.u8 r0, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i8>, ptr %x, align 1
  %1 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %0)
  ret i8 %1
}

define zeroext i8 @addv24i8i8(ptr %x) {
; CHECK-LABEL: addv24i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u16 q1, [r0]
; CHECK-NEXT:    vldrb.u8 q0, [r0, #8]
; CHECK-NEXT:    vaddv.u16 r0, q1
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i8>, ptr %x, align 1
  %arrayidx.8 = getelementptr inbounds i8, ptr %x, i32 8
  %1 = load <16 x i8>, ptr %arrayidx.8, align 1
  %2 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %1)
  %3 = call i8 @llvm.vector.reduce.add.v8i8(<8 x i8> %0)
  %op.rdx = add i8 %2, %3
  ret i8 %op.rdx
}

define zeroext i8 @addv32i8i8(ptr %x) {
; CHECK-LABEL: addv32i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q1, [r0]
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u8 r0, q1
; CHECK-NEXT:    vaddva.u8 r0, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i8>, ptr %x, align 1
  %1 = call i8 @llvm.vector.reduce.add.v32i8(<32 x i8> %0)
  ret i8 %1
}

define zeroext i8 @addv64i8i8(ptr %x) {
; CHECK-LABEL: addv64i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q1, [r0]
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u8 r2, q1
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    uxtb r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <64 x i8>, ptr %x, align 1
  %1 = call i8 @llvm.vector.reduce.add.v64i8(<64 x i8> %0)
  ret i8 %1
}

define zeroext i8 @addv128i8i8(ptr %x) {
; CHECK-LABEL: addv128i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q1, [r0]
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    vaddv.u8 r2, q1
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #32]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #48]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #64]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #80]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #96]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #112]
; CHECK-NEXT:    vaddva.u8 r2, q0
; CHECK-NEXT:    uxtb r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <16 x i8>, ptr %x, align 1
  %0 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load)
  %1 = getelementptr inbounds i8, ptr %x, i32 16
  %wide.load.1 = load <16 x i8>, ptr %1, align 1
  %2 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load.1)
  %3 = add i8 %2, %0
  %4 = getelementptr inbounds i8, ptr %x, i32 32
  %wide.load.2 = load <16 x i8>, ptr %4, align 1
  %5 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load.2)
  %6 = add i8 %5, %3
  %7 = getelementptr inbounds i8, ptr %x, i32 48
  %wide.load.3 = load <16 x i8>, ptr %7, align 1
  %8 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load.3)
  %9 = add i8 %8, %6
  %10 = getelementptr inbounds i8, ptr %x, i32 64
  %wide.load.4 = load <16 x i8>, ptr %10, align 1
  %11 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load.4)
  %12 = add i8 %11, %9
  %13 = getelementptr inbounds i8, ptr %x, i32 80
  %wide.load.5 = load <16 x i8>, ptr %13, align 1
  %14 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load.5)
  %15 = add i8 %14, %12
  %16 = getelementptr inbounds i8, ptr %x, i32 96
  %wide.load.6 = load <16 x i8>, ptr %16, align 1
  %17 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load.6)
  %18 = add i8 %17, %15
  %19 = getelementptr inbounds i8, ptr %x, i32 112
  %wide.load.7 = load <16 x i8>, ptr %19, align 1
  %20 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %wide.load.7)
  %21 = add i8 %20, %18
  ret i8 %21
}


define i32 @mlav2i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav2i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrd r0, r2, [r0]
; CHECK-NEXT:    ldrd r1, r3, [r1]
; CHECK-NEXT:    muls r0, r1, r0
; CHECK-NEXT:    mla r0, r3, r2, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load i32, ptr %x, align 4
  %1 = load i32, ptr %y, align 4
  %mul = mul nsw i32 %1, %0
  %arrayidx.1 = getelementptr inbounds i32, ptr %x, i32 1
  %2 = load i32, ptr %arrayidx.1, align 4
  %arrayidx1.1 = getelementptr inbounds i32, ptr %y, i32 1
  %3 = load i32, ptr %arrayidx1.1, align 4
  %mul.1 = mul nsw i32 %3, %2
  %add.1 = add nsw i32 %mul.1, %mul
  ret i32 %add.1
}

define i32 @mlav4i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav4i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vldrw.u32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i32>, ptr %x, align 4
  %1 = load <4 x i32>, ptr %y, align 4
  %2 = mul nsw <4 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %2)
  ret i32 %3
}

define i32 @mlav8i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav8i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vldrw.u32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r2, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r2, q1, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i32>, ptr %x, align 4
  %1 = load <8 x i32>, ptr %y, align 4
  %2 = mul nsw <8 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %2)
  ret i32 %3
}

define i32 @mlav16i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav16i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vldrw.u32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r2, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r2, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #32]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u32 r2, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r0, #48]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u32 r2, q1, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i32>, ptr %x, align 4
  %1 = load <16 x i32>, ptr %y, align 4
  %2 = mul nsw <16 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %2)
  ret i32 %3
}

define i32 @mlav24i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav24i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vldrw.u32 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #16]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #32]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #48]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #64]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #80]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i32>, ptr %x, align 4
  %1 = load <8 x i32>, ptr %y, align 4
  %2 = mul nsw <8 x i32> %1, %0
  %arrayidx.8 = getelementptr inbounds i32, ptr %x, i32 8
  %arrayidx1.8 = getelementptr inbounds i32, ptr %y, i32 8
  %3 = load <16 x i32>, ptr %arrayidx.8, align 4
  %4 = load <16 x i32>, ptr %arrayidx1.8, align 4
  %5 = mul nsw <16 x i32> %4, %3
  %6 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %5)
  %7 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %2)
  %op.rdx = add nsw i32 %6, %7
  ret i32 %op.rdx
}

define i32 @mlav32i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav32i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vldrw.u32 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #16]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #32]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #48]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #64]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #80]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #96]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #96]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #112]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #112]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i32>, ptr %x, align 4
  %1 = load <32 x i32>, ptr %y, align 4
  %2 = mul nsw <32 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %2)
  ret i32 %3
}

define i32 @mlav64i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav64i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vldrw.u32 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #16]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #32]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #48]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #64]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #80]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #96]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #96]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #112]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #112]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #128]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #128]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #144]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #144]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #160]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #160]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #176]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #176]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #192]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #192]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #208]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #208]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #224]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #224]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #240]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #240]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <4 x i32>, ptr %x, align 4
  %wide.load10 = load <4 x i32>, ptr %y, align 4
  %0 = mul nsw <4 x i32> %wide.load10, %wide.load
  %1 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %0)
  %2 = getelementptr inbounds i32, ptr %x, i32 4
  %wide.load.1 = load <4 x i32>, ptr %2, align 4
  %3 = getelementptr inbounds i32, ptr %y, i32 4
  %wide.load10.1 = load <4 x i32>, ptr %3, align 4
  %4 = mul nsw <4 x i32> %wide.load10.1, %wide.load.1
  %5 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %4)
  %6 = add i32 %5, %1
  %7 = getelementptr inbounds i32, ptr %x, i32 8
  %wide.load.2 = load <4 x i32>, ptr %7, align 4
  %8 = getelementptr inbounds i32, ptr %y, i32 8
  %wide.load10.2 = load <4 x i32>, ptr %8, align 4
  %9 = mul nsw <4 x i32> %wide.load10.2, %wide.load.2
  %10 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %9)
  %11 = add i32 %10, %6
  %12 = getelementptr inbounds i32, ptr %x, i32 12
  %wide.load.3 = load <4 x i32>, ptr %12, align 4
  %13 = getelementptr inbounds i32, ptr %y, i32 12
  %wide.load10.3 = load <4 x i32>, ptr %13, align 4
  %14 = mul nsw <4 x i32> %wide.load10.3, %wide.load.3
  %15 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %14)
  %16 = add i32 %15, %11
  %17 = getelementptr inbounds i32, ptr %x, i32 16
  %wide.load.4 = load <4 x i32>, ptr %17, align 4
  %18 = getelementptr inbounds i32, ptr %y, i32 16
  %wide.load10.4 = load <4 x i32>, ptr %18, align 4
  %19 = mul nsw <4 x i32> %wide.load10.4, %wide.load.4
  %20 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %19)
  %21 = add i32 %20, %16
  %22 = getelementptr inbounds i32, ptr %x, i32 20
  %wide.load.5 = load <4 x i32>, ptr %22, align 4
  %23 = getelementptr inbounds i32, ptr %y, i32 20
  %wide.load10.5 = load <4 x i32>, ptr %23, align 4
  %24 = mul nsw <4 x i32> %wide.load10.5, %wide.load.5
  %25 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %24)
  %26 = add i32 %25, %21
  %27 = getelementptr inbounds i32, ptr %x, i32 24
  %wide.load.6 = load <4 x i32>, ptr %27, align 4
  %28 = getelementptr inbounds i32, ptr %y, i32 24
  %wide.load10.6 = load <4 x i32>, ptr %28, align 4
  %29 = mul nsw <4 x i32> %wide.load10.6, %wide.load.6
  %30 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %29)
  %31 = add i32 %30, %26
  %32 = getelementptr inbounds i32, ptr %x, i32 28
  %wide.load.7 = load <4 x i32>, ptr %32, align 4
  %33 = getelementptr inbounds i32, ptr %y, i32 28
  %wide.load10.7 = load <4 x i32>, ptr %33, align 4
  %34 = mul nsw <4 x i32> %wide.load10.7, %wide.load.7
  %35 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %34)
  %36 = add i32 %35, %31
  %37 = getelementptr inbounds i32, ptr %x, i32 32
  %wide.load.8 = load <4 x i32>, ptr %37, align 4
  %38 = getelementptr inbounds i32, ptr %y, i32 32
  %wide.load10.8 = load <4 x i32>, ptr %38, align 4
  %39 = mul nsw <4 x i32> %wide.load10.8, %wide.load.8
  %40 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %39)
  %41 = add i32 %40, %36
  %42 = getelementptr inbounds i32, ptr %x, i32 36
  %wide.load.9 = load <4 x i32>, ptr %42, align 4
  %43 = getelementptr inbounds i32, ptr %y, i32 36
  %wide.load10.9 = load <4 x i32>, ptr %43, align 4
  %44 = mul nsw <4 x i32> %wide.load10.9, %wide.load.9
  %45 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %44)
  %46 = add i32 %45, %41
  %47 = getelementptr inbounds i32, ptr %x, i32 40
  %wide.load.10 = load <4 x i32>, ptr %47, align 4
  %48 = getelementptr inbounds i32, ptr %y, i32 40
  %wide.load10.10 = load <4 x i32>, ptr %48, align 4
  %49 = mul nsw <4 x i32> %wide.load10.10, %wide.load.10
  %50 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %49)
  %51 = add i32 %50, %46
  %52 = getelementptr inbounds i32, ptr %x, i32 44
  %wide.load.11 = load <4 x i32>, ptr %52, align 4
  %53 = getelementptr inbounds i32, ptr %y, i32 44
  %wide.load10.11 = load <4 x i32>, ptr %53, align 4
  %54 = mul nsw <4 x i32> %wide.load10.11, %wide.load.11
  %55 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %54)
  %56 = add i32 %55, %51
  %57 = getelementptr inbounds i32, ptr %x, i32 48
  %wide.load.12 = load <4 x i32>, ptr %57, align 4
  %58 = getelementptr inbounds i32, ptr %y, i32 48
  %wide.load10.12 = load <4 x i32>, ptr %58, align 4
  %59 = mul nsw <4 x i32> %wide.load10.12, %wide.load.12
  %60 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %59)
  %61 = add i32 %60, %56
  %62 = getelementptr inbounds i32, ptr %x, i32 52
  %wide.load.13 = load <4 x i32>, ptr %62, align 4
  %63 = getelementptr inbounds i32, ptr %y, i32 52
  %wide.load10.13 = load <4 x i32>, ptr %63, align 4
  %64 = mul nsw <4 x i32> %wide.load10.13, %wide.load.13
  %65 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %64)
  %66 = add i32 %65, %61
  %67 = getelementptr inbounds i32, ptr %x, i32 56
  %wide.load.14 = load <4 x i32>, ptr %67, align 4
  %68 = getelementptr inbounds i32, ptr %y, i32 56
  %wide.load10.14 = load <4 x i32>, ptr %68, align 4
  %69 = mul nsw <4 x i32> %wide.load10.14, %wide.load.14
  %70 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %69)
  %71 = add i32 %70, %66
  %72 = getelementptr inbounds i32, ptr %x, i32 60
  %wide.load.15 = load <4 x i32>, ptr %72, align 4
  %73 = getelementptr inbounds i32, ptr %y, i32 60
  %wide.load10.15 = load <4 x i32>, ptr %73, align 4
  %74 = mul nsw <4 x i32> %wide.load10.15, %wide.load.15
  %75 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %74)
  %76 = add i32 %75, %71
  ret i32 %76
}

define i32 @mlav128i32i32(ptr %x, ptr %y) {
; CHECK-LABEL: mlav128i32i32:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrw.u32 q0, [r0]
; CHECK-NEXT:    vldrw.u32 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #16]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #32]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #48]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #64]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #80]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #96]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #96]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #112]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #112]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #128]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #128]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #144]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #144]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #160]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #160]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #176]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #176]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #192]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #192]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #208]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #208]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #224]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #224]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #240]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #240]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #256]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #256]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #272]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #272]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #288]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #288]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #304]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #304]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #320]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #320]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #336]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #336]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #352]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #352]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #368]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #368]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #384]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #384]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #400]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #400]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #416]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #416]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #432]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #432]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #448]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #448]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #464]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #464]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #480]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #480]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrw.u32 q0, [r2, #496]
; CHECK-NEXT:    vldrw.u32 q1, [r1, #496]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <4 x i32>, ptr %x, align 4
  %wide.load10 = load <4 x i32>, ptr %y, align 4
  %0 = mul nsw <4 x i32> %wide.load10, %wide.load
  %1 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %0)
  %2 = getelementptr inbounds i32, ptr %x, i32 4
  %wide.load.1 = load <4 x i32>, ptr %2, align 4
  %3 = getelementptr inbounds i32, ptr %y, i32 4
  %wide.load10.1 = load <4 x i32>, ptr %3, align 4
  %4 = mul nsw <4 x i32> %wide.load10.1, %wide.load.1
  %5 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %4)
  %6 = add i32 %5, %1
  %7 = getelementptr inbounds i32, ptr %x, i32 8
  %wide.load.2 = load <4 x i32>, ptr %7, align 4
  %8 = getelementptr inbounds i32, ptr %y, i32 8
  %wide.load10.2 = load <4 x i32>, ptr %8, align 4
  %9 = mul nsw <4 x i32> %wide.load10.2, %wide.load.2
  %10 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %9)
  %11 = add i32 %10, %6
  %12 = getelementptr inbounds i32, ptr %x, i32 12
  %wide.load.3 = load <4 x i32>, ptr %12, align 4
  %13 = getelementptr inbounds i32, ptr %y, i32 12
  %wide.load10.3 = load <4 x i32>, ptr %13, align 4
  %14 = mul nsw <4 x i32> %wide.load10.3, %wide.load.3
  %15 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %14)
  %16 = add i32 %15, %11
  %17 = getelementptr inbounds i32, ptr %x, i32 16
  %wide.load.4 = load <4 x i32>, ptr %17, align 4
  %18 = getelementptr inbounds i32, ptr %y, i32 16
  %wide.load10.4 = load <4 x i32>, ptr %18, align 4
  %19 = mul nsw <4 x i32> %wide.load10.4, %wide.load.4
  %20 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %19)
  %21 = add i32 %20, %16
  %22 = getelementptr inbounds i32, ptr %x, i32 20
  %wide.load.5 = load <4 x i32>, ptr %22, align 4
  %23 = getelementptr inbounds i32, ptr %y, i32 20
  %wide.load10.5 = load <4 x i32>, ptr %23, align 4
  %24 = mul nsw <4 x i32> %wide.load10.5, %wide.load.5
  %25 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %24)
  %26 = add i32 %25, %21
  %27 = getelementptr inbounds i32, ptr %x, i32 24
  %wide.load.6 = load <4 x i32>, ptr %27, align 4
  %28 = getelementptr inbounds i32, ptr %y, i32 24
  %wide.load10.6 = load <4 x i32>, ptr %28, align 4
  %29 = mul nsw <4 x i32> %wide.load10.6, %wide.load.6
  %30 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %29)
  %31 = add i32 %30, %26
  %32 = getelementptr inbounds i32, ptr %x, i32 28
  %wide.load.7 = load <4 x i32>, ptr %32, align 4
  %33 = getelementptr inbounds i32, ptr %y, i32 28
  %wide.load10.7 = load <4 x i32>, ptr %33, align 4
  %34 = mul nsw <4 x i32> %wide.load10.7, %wide.load.7
  %35 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %34)
  %36 = add i32 %35, %31
  %37 = getelementptr inbounds i32, ptr %x, i32 32
  %wide.load.8 = load <4 x i32>, ptr %37, align 4
  %38 = getelementptr inbounds i32, ptr %y, i32 32
  %wide.load10.8 = load <4 x i32>, ptr %38, align 4
  %39 = mul nsw <4 x i32> %wide.load10.8, %wide.load.8
  %40 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %39)
  %41 = add i32 %40, %36
  %42 = getelementptr inbounds i32, ptr %x, i32 36
  %wide.load.9 = load <4 x i32>, ptr %42, align 4
  %43 = getelementptr inbounds i32, ptr %y, i32 36
  %wide.load10.9 = load <4 x i32>, ptr %43, align 4
  %44 = mul nsw <4 x i32> %wide.load10.9, %wide.load.9
  %45 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %44)
  %46 = add i32 %45, %41
  %47 = getelementptr inbounds i32, ptr %x, i32 40
  %wide.load.10 = load <4 x i32>, ptr %47, align 4
  %48 = getelementptr inbounds i32, ptr %y, i32 40
  %wide.load10.10 = load <4 x i32>, ptr %48, align 4
  %49 = mul nsw <4 x i32> %wide.load10.10, %wide.load.10
  %50 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %49)
  %51 = add i32 %50, %46
  %52 = getelementptr inbounds i32, ptr %x, i32 44
  %wide.load.11 = load <4 x i32>, ptr %52, align 4
  %53 = getelementptr inbounds i32, ptr %y, i32 44
  %wide.load10.11 = load <4 x i32>, ptr %53, align 4
  %54 = mul nsw <4 x i32> %wide.load10.11, %wide.load.11
  %55 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %54)
  %56 = add i32 %55, %51
  %57 = getelementptr inbounds i32, ptr %x, i32 48
  %wide.load.12 = load <4 x i32>, ptr %57, align 4
  %58 = getelementptr inbounds i32, ptr %y, i32 48
  %wide.load10.12 = load <4 x i32>, ptr %58, align 4
  %59 = mul nsw <4 x i32> %wide.load10.12, %wide.load.12
  %60 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %59)
  %61 = add i32 %60, %56
  %62 = getelementptr inbounds i32, ptr %x, i32 52
  %wide.load.13 = load <4 x i32>, ptr %62, align 4
  %63 = getelementptr inbounds i32, ptr %y, i32 52
  %wide.load10.13 = load <4 x i32>, ptr %63, align 4
  %64 = mul nsw <4 x i32> %wide.load10.13, %wide.load.13
  %65 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %64)
  %66 = add i32 %65, %61
  %67 = getelementptr inbounds i32, ptr %x, i32 56
  %wide.load.14 = load <4 x i32>, ptr %67, align 4
  %68 = getelementptr inbounds i32, ptr %y, i32 56
  %wide.load10.14 = load <4 x i32>, ptr %68, align 4
  %69 = mul nsw <4 x i32> %wide.load10.14, %wide.load.14
  %70 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %69)
  %71 = add i32 %70, %66
  %72 = getelementptr inbounds i32, ptr %x, i32 60
  %wide.load.15 = load <4 x i32>, ptr %72, align 4
  %73 = getelementptr inbounds i32, ptr %y, i32 60
  %wide.load10.15 = load <4 x i32>, ptr %73, align 4
  %74 = mul nsw <4 x i32> %wide.load10.15, %wide.load.15
  %75 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %74)
  %76 = add i32 %75, %71
  %77 = getelementptr inbounds i32, ptr %x, i32 64
  %wide.load.16 = load <4 x i32>, ptr %77, align 4
  %78 = getelementptr inbounds i32, ptr %y, i32 64
  %wide.load10.16 = load <4 x i32>, ptr %78, align 4
  %79 = mul nsw <4 x i32> %wide.load10.16, %wide.load.16
  %80 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %79)
  %81 = add i32 %80, %76
  %82 = getelementptr inbounds i32, ptr %x, i32 68
  %wide.load.17 = load <4 x i32>, ptr %82, align 4
  %83 = getelementptr inbounds i32, ptr %y, i32 68
  %wide.load10.17 = load <4 x i32>, ptr %83, align 4
  %84 = mul nsw <4 x i32> %wide.load10.17, %wide.load.17
  %85 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %84)
  %86 = add i32 %85, %81
  %87 = getelementptr inbounds i32, ptr %x, i32 72
  %wide.load.18 = load <4 x i32>, ptr %87, align 4
  %88 = getelementptr inbounds i32, ptr %y, i32 72
  %wide.load10.18 = load <4 x i32>, ptr %88, align 4
  %89 = mul nsw <4 x i32> %wide.load10.18, %wide.load.18
  %90 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %89)
  %91 = add i32 %90, %86
  %92 = getelementptr inbounds i32, ptr %x, i32 76
  %wide.load.19 = load <4 x i32>, ptr %92, align 4
  %93 = getelementptr inbounds i32, ptr %y, i32 76
  %wide.load10.19 = load <4 x i32>, ptr %93, align 4
  %94 = mul nsw <4 x i32> %wide.load10.19, %wide.load.19
  %95 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %94)
  %96 = add i32 %95, %91
  %97 = getelementptr inbounds i32, ptr %x, i32 80
  %wide.load.20 = load <4 x i32>, ptr %97, align 4
  %98 = getelementptr inbounds i32, ptr %y, i32 80
  %wide.load10.20 = load <4 x i32>, ptr %98, align 4
  %99 = mul nsw <4 x i32> %wide.load10.20, %wide.load.20
  %100 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %99)
  %101 = add i32 %100, %96
  %102 = getelementptr inbounds i32, ptr %x, i32 84
  %wide.load.21 = load <4 x i32>, ptr %102, align 4
  %103 = getelementptr inbounds i32, ptr %y, i32 84
  %wide.load10.21 = load <4 x i32>, ptr %103, align 4
  %104 = mul nsw <4 x i32> %wide.load10.21, %wide.load.21
  %105 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %104)
  %106 = add i32 %105, %101
  %107 = getelementptr inbounds i32, ptr %x, i32 88
  %wide.load.22 = load <4 x i32>, ptr %107, align 4
  %108 = getelementptr inbounds i32, ptr %y, i32 88
  %wide.load10.22 = load <4 x i32>, ptr %108, align 4
  %109 = mul nsw <4 x i32> %wide.load10.22, %wide.load.22
  %110 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %109)
  %111 = add i32 %110, %106
  %112 = getelementptr inbounds i32, ptr %x, i32 92
  %wide.load.23 = load <4 x i32>, ptr %112, align 4
  %113 = getelementptr inbounds i32, ptr %y, i32 92
  %wide.load10.23 = load <4 x i32>, ptr %113, align 4
  %114 = mul nsw <4 x i32> %wide.load10.23, %wide.load.23
  %115 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %114)
  %116 = add i32 %115, %111
  %117 = getelementptr inbounds i32, ptr %x, i32 96
  %wide.load.24 = load <4 x i32>, ptr %117, align 4
  %118 = getelementptr inbounds i32, ptr %y, i32 96
  %wide.load10.24 = load <4 x i32>, ptr %118, align 4
  %119 = mul nsw <4 x i32> %wide.load10.24, %wide.load.24
  %120 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %119)
  %121 = add i32 %120, %116
  %122 = getelementptr inbounds i32, ptr %x, i32 100
  %wide.load.25 = load <4 x i32>, ptr %122, align 4
  %123 = getelementptr inbounds i32, ptr %y, i32 100
  %wide.load10.25 = load <4 x i32>, ptr %123, align 4
  %124 = mul nsw <4 x i32> %wide.load10.25, %wide.load.25
  %125 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %124)
  %126 = add i32 %125, %121
  %127 = getelementptr inbounds i32, ptr %x, i32 104
  %wide.load.26 = load <4 x i32>, ptr %127, align 4
  %128 = getelementptr inbounds i32, ptr %y, i32 104
  %wide.load10.26 = load <4 x i32>, ptr %128, align 4
  %129 = mul nsw <4 x i32> %wide.load10.26, %wide.load.26
  %130 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %129)
  %131 = add i32 %130, %126
  %132 = getelementptr inbounds i32, ptr %x, i32 108
  %wide.load.27 = load <4 x i32>, ptr %132, align 4
  %133 = getelementptr inbounds i32, ptr %y, i32 108
  %wide.load10.27 = load <4 x i32>, ptr %133, align 4
  %134 = mul nsw <4 x i32> %wide.load10.27, %wide.load.27
  %135 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %134)
  %136 = add i32 %135, %131
  %137 = getelementptr inbounds i32, ptr %x, i32 112
  %wide.load.28 = load <4 x i32>, ptr %137, align 4
  %138 = getelementptr inbounds i32, ptr %y, i32 112
  %wide.load10.28 = load <4 x i32>, ptr %138, align 4
  %139 = mul nsw <4 x i32> %wide.load10.28, %wide.load.28
  %140 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %139)
  %141 = add i32 %140, %136
  %142 = getelementptr inbounds i32, ptr %x, i32 116
  %wide.load.29 = load <4 x i32>, ptr %142, align 4
  %143 = getelementptr inbounds i32, ptr %y, i32 116
  %wide.load10.29 = load <4 x i32>, ptr %143, align 4
  %144 = mul nsw <4 x i32> %wide.load10.29, %wide.load.29
  %145 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %144)
  %146 = add i32 %145, %141
  %147 = getelementptr inbounds i32, ptr %x, i32 120
  %wide.load.30 = load <4 x i32>, ptr %147, align 4
  %148 = getelementptr inbounds i32, ptr %y, i32 120
  %wide.load10.30 = load <4 x i32>, ptr %148, align 4
  %149 = mul nsw <4 x i32> %wide.load10.30, %wide.load.30
  %150 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %149)
  %151 = add i32 %150, %146
  %152 = getelementptr inbounds i32, ptr %x, i32 124
  %wide.load.31 = load <4 x i32>, ptr %152, align 4
  %153 = getelementptr inbounds i32, ptr %y, i32 124
  %wide.load10.31 = load <4 x i32>, ptr %153, align 4
  %154 = mul nsw <4 x i32> %wide.load10.31, %wide.load.31
  %155 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %154)
  %156 = add i32 %155, %151
  ret i32 %156
}

define i32 @mlav2i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav2i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrsh.w r2, [r0]
; CHECK-NEXT:    ldrsh.w r3, [r1]
; CHECK-NEXT:    ldrsh.w r0, [r0, #2]
; CHECK-NEXT:    ldrsh.w r1, [r1, #2]
; CHECK-NEXT:    muls r0, r1, r0
; CHECK-NEXT:    smlabb r0, r3, r2, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load i16, ptr %x, align 2
  %conv = sext i16 %0 to i32
  %1 = load i16, ptr %y, align 2
  %conv2 = sext i16 %1 to i32
  %mul = mul nsw i32 %conv2, %conv
  %arrayidx.1 = getelementptr inbounds i16, ptr %x, i32 1
  %2 = load i16, ptr %arrayidx.1, align 2
  %conv.1 = sext i16 %2 to i32
  %arrayidx1.1 = getelementptr inbounds i16, ptr %y, i32 1
  %3 = load i16, ptr %arrayidx1.1, align 2
  %conv2.1 = sext i16 %3 to i32
  %mul.1 = mul nsw i32 %conv2.1, %conv.1
  %add.1 = add nsw i32 %mul.1, %mul
  ret i32 %add.1
}

define i32 @mlav4i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav4i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q0, [r0]
; CHECK-NEXT:    vldrh.s32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i16>, ptr %x, align 2
  %1 = sext <4 x i16> %0 to <4 x i32>
  %2 = load <4 x i16>, ptr %y, align 2
  %3 = sext <4 x i16> %2 to <4 x i32>
  %4 = mul nsw <4 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %4)
  ret i32 %5
}

define i32 @mlav8i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav8i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    vmlav.s16 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i16>, ptr %x, align 2
  %1 = sext <8 x i16> %0 to <8 x i32>
  %2 = load <8 x i16>, ptr %y, align 2
  %3 = sext <8 x i16> %2 to <8 x i32>
  %4 = mul nsw <8 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %4)
  ret i32 %5
}

define i32 @mlav16i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav16i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q0, [r0]
; CHECK-NEXT:    vldrh.s32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r2, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #8]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #8]
; CHECK-NEXT:    vmlava.u32 r2, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #16]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r2, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r0, #24]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #24]
; CHECK-NEXT:    vmlava.u32 r2, q1, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i16>, ptr %x, align 2
  %1 = sext <16 x i16> %0 to <16 x i32>
  %2 = load <16 x i16>, ptr %y, align 2
  %3 = sext <16 x i16> %2 to <16 x i32>
  %4 = mul nsw <16 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %4)
  ret i32 %5
}

define i32 @mlav24i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav24i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #16]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #24]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #24]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #32]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #40]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #40]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i16>, ptr %x, align 2
  %1 = sext <8 x i16> %0 to <8 x i32>
  %2 = load <8 x i16>, ptr %y, align 2
  %3 = sext <8 x i16> %2 to <8 x i32>
  %4 = mul nsw <8 x i32> %3, %1
  %arrayidx.8 = getelementptr inbounds i16, ptr %x, i32 8
  %arrayidx1.8 = getelementptr inbounds i16, ptr %y, i32 8
  %5 = load <16 x i16>, ptr %arrayidx.8, align 2
  %6 = sext <16 x i16> %5 to <16 x i32>
  %7 = load <16 x i16>, ptr %arrayidx1.8, align 2
  %8 = sext <16 x i16> %7 to <16 x i32>
  %9 = mul nsw <16 x i32> %8, %6
  %10 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %9)
  %11 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %4)
  %op.rdx = add nsw i32 %10, %11
  ret i32 %op.rdx
}

define i32 @mlav32i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav32i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.s32 q0, [r0]
; CHECK-NEXT:    vldrh.s32 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #8]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #8]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #16]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #24]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #24]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #32]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #40]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #40]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #48]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrh.s32 q0, [r2, #56]
; CHECK-NEXT:    vldrh.s32 q1, [r1, #56]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i16>, ptr %x, align 2
  %1 = sext <32 x i16> %0 to <32 x i32>
  %2 = load <32 x i16>, ptr %y, align 2
  %3 = sext <32 x i16> %2 to <32 x i32>
  %4 = mul nsw <32 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %4)
  ret i32 %5
}

define i32 @mlav64i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav64i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #16]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #16]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #32]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #32]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #48]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #48]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #64]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #64]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #80]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #80]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #96]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #96]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #112]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #112]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <8 x i16>, ptr %x, align 2
  %0 = sext <8 x i16> %wide.load to <8 x i32>
  %wide.load11 = load <8 x i16>, ptr %y, align 2
  %1 = sext <8 x i16> %wide.load11 to <8 x i32>
  %2 = mul nsw <8 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %2)
  %4 = getelementptr inbounds i16, ptr %x, i32 8
  %wide.load.1 = load <8 x i16>, ptr %4, align 2
  %5 = sext <8 x i16> %wide.load.1 to <8 x i32>
  %6 = getelementptr inbounds i16, ptr %y, i32 8
  %wide.load11.1 = load <8 x i16>, ptr %6, align 2
  %7 = sext <8 x i16> %wide.load11.1 to <8 x i32>
  %8 = mul nsw <8 x i32> %7, %5
  %9 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %8)
  %10 = add i32 %9, %3
  %11 = getelementptr inbounds i16, ptr %x, i32 16
  %wide.load.2 = load <8 x i16>, ptr %11, align 2
  %12 = sext <8 x i16> %wide.load.2 to <8 x i32>
  %13 = getelementptr inbounds i16, ptr %y, i32 16
  %wide.load11.2 = load <8 x i16>, ptr %13, align 2
  %14 = sext <8 x i16> %wide.load11.2 to <8 x i32>
  %15 = mul nsw <8 x i32> %14, %12
  %16 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %15)
  %17 = add i32 %16, %10
  %18 = getelementptr inbounds i16, ptr %x, i32 24
  %wide.load.3 = load <8 x i16>, ptr %18, align 2
  %19 = sext <8 x i16> %wide.load.3 to <8 x i32>
  %20 = getelementptr inbounds i16, ptr %y, i32 24
  %wide.load11.3 = load <8 x i16>, ptr %20, align 2
  %21 = sext <8 x i16> %wide.load11.3 to <8 x i32>
  %22 = mul nsw <8 x i32> %21, %19
  %23 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %22)
  %24 = add i32 %23, %17
  %25 = getelementptr inbounds i16, ptr %x, i32 32
  %wide.load.4 = load <8 x i16>, ptr %25, align 2
  %26 = sext <8 x i16> %wide.load.4 to <8 x i32>
  %27 = getelementptr inbounds i16, ptr %y, i32 32
  %wide.load11.4 = load <8 x i16>, ptr %27, align 2
  %28 = sext <8 x i16> %wide.load11.4 to <8 x i32>
  %29 = mul nsw <8 x i32> %28, %26
  %30 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %29)
  %31 = add i32 %30, %24
  %32 = getelementptr inbounds i16, ptr %x, i32 40
  %wide.load.5 = load <8 x i16>, ptr %32, align 2
  %33 = sext <8 x i16> %wide.load.5 to <8 x i32>
  %34 = getelementptr inbounds i16, ptr %y, i32 40
  %wide.load11.5 = load <8 x i16>, ptr %34, align 2
  %35 = sext <8 x i16> %wide.load11.5 to <8 x i32>
  %36 = mul nsw <8 x i32> %35, %33
  %37 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %36)
  %38 = add i32 %37, %31
  %39 = getelementptr inbounds i16, ptr %x, i32 48
  %wide.load.6 = load <8 x i16>, ptr %39, align 2
  %40 = sext <8 x i16> %wide.load.6 to <8 x i32>
  %41 = getelementptr inbounds i16, ptr %y, i32 48
  %wide.load11.6 = load <8 x i16>, ptr %41, align 2
  %42 = sext <8 x i16> %wide.load11.6 to <8 x i32>
  %43 = mul nsw <8 x i32> %42, %40
  %44 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %43)
  %45 = add i32 %44, %38
  %46 = getelementptr inbounds i16, ptr %x, i32 56
  %wide.load.7 = load <8 x i16>, ptr %46, align 2
  %47 = sext <8 x i16> %wide.load.7 to <8 x i32>
  %48 = getelementptr inbounds i16, ptr %y, i32 56
  %wide.load11.7 = load <8 x i16>, ptr %48, align 2
  %49 = sext <8 x i16> %wide.load11.7 to <8 x i32>
  %50 = mul nsw <8 x i32> %49, %47
  %51 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %50)
  %52 = add i32 %51, %45
  ret i32 %52
}

define i32 @mlav128i32i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav128i32i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #16]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #16]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #32]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #32]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #48]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #48]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #64]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #64]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #80]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #80]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #96]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #96]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #112]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #112]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #128]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #128]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #144]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #144]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #160]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #160]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #176]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #176]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #192]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #192]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #208]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #208]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #224]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #224]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r2, #240]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #240]
; CHECK-NEXT:    vmlava.s16 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <8 x i16>, ptr %x, align 2
  %0 = sext <8 x i16> %wide.load to <8 x i32>
  %wide.load11 = load <8 x i16>, ptr %y, align 2
  %1 = sext <8 x i16> %wide.load11 to <8 x i32>
  %2 = mul nsw <8 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %2)
  %4 = getelementptr inbounds i16, ptr %x, i32 8
  %wide.load.1 = load <8 x i16>, ptr %4, align 2
  %5 = sext <8 x i16> %wide.load.1 to <8 x i32>
  %6 = getelementptr inbounds i16, ptr %y, i32 8
  %wide.load11.1 = load <8 x i16>, ptr %6, align 2
  %7 = sext <8 x i16> %wide.load11.1 to <8 x i32>
  %8 = mul nsw <8 x i32> %7, %5
  %9 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %8)
  %10 = add i32 %9, %3
  %11 = getelementptr inbounds i16, ptr %x, i32 16
  %wide.load.2 = load <8 x i16>, ptr %11, align 2
  %12 = sext <8 x i16> %wide.load.2 to <8 x i32>
  %13 = getelementptr inbounds i16, ptr %y, i32 16
  %wide.load11.2 = load <8 x i16>, ptr %13, align 2
  %14 = sext <8 x i16> %wide.load11.2 to <8 x i32>
  %15 = mul nsw <8 x i32> %14, %12
  %16 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %15)
  %17 = add i32 %16, %10
  %18 = getelementptr inbounds i16, ptr %x, i32 24
  %wide.load.3 = load <8 x i16>, ptr %18, align 2
  %19 = sext <8 x i16> %wide.load.3 to <8 x i32>
  %20 = getelementptr inbounds i16, ptr %y, i32 24
  %wide.load11.3 = load <8 x i16>, ptr %20, align 2
  %21 = sext <8 x i16> %wide.load11.3 to <8 x i32>
  %22 = mul nsw <8 x i32> %21, %19
  %23 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %22)
  %24 = add i32 %23, %17
  %25 = getelementptr inbounds i16, ptr %x, i32 32
  %wide.load.4 = load <8 x i16>, ptr %25, align 2
  %26 = sext <8 x i16> %wide.load.4 to <8 x i32>
  %27 = getelementptr inbounds i16, ptr %y, i32 32
  %wide.load11.4 = load <8 x i16>, ptr %27, align 2
  %28 = sext <8 x i16> %wide.load11.4 to <8 x i32>
  %29 = mul nsw <8 x i32> %28, %26
  %30 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %29)
  %31 = add i32 %30, %24
  %32 = getelementptr inbounds i16, ptr %x, i32 40
  %wide.load.5 = load <8 x i16>, ptr %32, align 2
  %33 = sext <8 x i16> %wide.load.5 to <8 x i32>
  %34 = getelementptr inbounds i16, ptr %y, i32 40
  %wide.load11.5 = load <8 x i16>, ptr %34, align 2
  %35 = sext <8 x i16> %wide.load11.5 to <8 x i32>
  %36 = mul nsw <8 x i32> %35, %33
  %37 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %36)
  %38 = add i32 %37, %31
  %39 = getelementptr inbounds i16, ptr %x, i32 48
  %wide.load.6 = load <8 x i16>, ptr %39, align 2
  %40 = sext <8 x i16> %wide.load.6 to <8 x i32>
  %41 = getelementptr inbounds i16, ptr %y, i32 48
  %wide.load11.6 = load <8 x i16>, ptr %41, align 2
  %42 = sext <8 x i16> %wide.load11.6 to <8 x i32>
  %43 = mul nsw <8 x i32> %42, %40
  %44 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %43)
  %45 = add i32 %44, %38
  %46 = getelementptr inbounds i16, ptr %x, i32 56
  %wide.load.7 = load <8 x i16>, ptr %46, align 2
  %47 = sext <8 x i16> %wide.load.7 to <8 x i32>
  %48 = getelementptr inbounds i16, ptr %y, i32 56
  %wide.load11.7 = load <8 x i16>, ptr %48, align 2
  %49 = sext <8 x i16> %wide.load11.7 to <8 x i32>
  %50 = mul nsw <8 x i32> %49, %47
  %51 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %50)
  %52 = add i32 %51, %45
  %53 = getelementptr inbounds i16, ptr %x, i32 64
  %wide.load.8 = load <8 x i16>, ptr %53, align 2
  %54 = sext <8 x i16> %wide.load.8 to <8 x i32>
  %55 = getelementptr inbounds i16, ptr %y, i32 64
  %wide.load11.8 = load <8 x i16>, ptr %55, align 2
  %56 = sext <8 x i16> %wide.load11.8 to <8 x i32>
  %57 = mul nsw <8 x i32> %56, %54
  %58 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %57)
  %59 = add i32 %58, %52
  %60 = getelementptr inbounds i16, ptr %x, i32 72
  %wide.load.9 = load <8 x i16>, ptr %60, align 2
  %61 = sext <8 x i16> %wide.load.9 to <8 x i32>
  %62 = getelementptr inbounds i16, ptr %y, i32 72
  %wide.load11.9 = load <8 x i16>, ptr %62, align 2
  %63 = sext <8 x i16> %wide.load11.9 to <8 x i32>
  %64 = mul nsw <8 x i32> %63, %61
  %65 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %64)
  %66 = add i32 %65, %59
  %67 = getelementptr inbounds i16, ptr %x, i32 80
  %wide.load.10 = load <8 x i16>, ptr %67, align 2
  %68 = sext <8 x i16> %wide.load.10 to <8 x i32>
  %69 = getelementptr inbounds i16, ptr %y, i32 80
  %wide.load11.10 = load <8 x i16>, ptr %69, align 2
  %70 = sext <8 x i16> %wide.load11.10 to <8 x i32>
  %71 = mul nsw <8 x i32> %70, %68
  %72 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %71)
  %73 = add i32 %72, %66
  %74 = getelementptr inbounds i16, ptr %x, i32 88
  %wide.load.11 = load <8 x i16>, ptr %74, align 2
  %75 = sext <8 x i16> %wide.load.11 to <8 x i32>
  %76 = getelementptr inbounds i16, ptr %y, i32 88
  %wide.load11.11 = load <8 x i16>, ptr %76, align 2
  %77 = sext <8 x i16> %wide.load11.11 to <8 x i32>
  %78 = mul nsw <8 x i32> %77, %75
  %79 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %78)
  %80 = add i32 %79, %73
  %81 = getelementptr inbounds i16, ptr %x, i32 96
  %wide.load.12 = load <8 x i16>, ptr %81, align 2
  %82 = sext <8 x i16> %wide.load.12 to <8 x i32>
  %83 = getelementptr inbounds i16, ptr %y, i32 96
  %wide.load11.12 = load <8 x i16>, ptr %83, align 2
  %84 = sext <8 x i16> %wide.load11.12 to <8 x i32>
  %85 = mul nsw <8 x i32> %84, %82
  %86 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %85)
  %87 = add i32 %86, %80
  %88 = getelementptr inbounds i16, ptr %x, i32 104
  %wide.load.13 = load <8 x i16>, ptr %88, align 2
  %89 = sext <8 x i16> %wide.load.13 to <8 x i32>
  %90 = getelementptr inbounds i16, ptr %y, i32 104
  %wide.load11.13 = load <8 x i16>, ptr %90, align 2
  %91 = sext <8 x i16> %wide.load11.13 to <8 x i32>
  %92 = mul nsw <8 x i32> %91, %89
  %93 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %92)
  %94 = add i32 %93, %87
  %95 = getelementptr inbounds i16, ptr %x, i32 112
  %wide.load.14 = load <8 x i16>, ptr %95, align 2
  %96 = sext <8 x i16> %wide.load.14 to <8 x i32>
  %97 = getelementptr inbounds i16, ptr %y, i32 112
  %wide.load11.14 = load <8 x i16>, ptr %97, align 2
  %98 = sext <8 x i16> %wide.load11.14 to <8 x i32>
  %99 = mul nsw <8 x i32> %98, %96
  %100 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %99)
  %101 = add i32 %100, %94
  %102 = getelementptr inbounds i16, ptr %x, i32 120
  %wide.load.15 = load <8 x i16>, ptr %102, align 2
  %103 = sext <8 x i16> %wide.load.15 to <8 x i32>
  %104 = getelementptr inbounds i16, ptr %y, i32 120
  %wide.load11.15 = load <8 x i16>, ptr %104, align 2
  %105 = sext <8 x i16> %wide.load11.15 to <8 x i32>
  %106 = mul nsw <8 x i32> %105, %103
  %107 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %106)
  %108 = add i32 %107, %101
  ret i32 %108
}

define i32 @mlav2i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav2i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrb r2, [r0]
; CHECK-NEXT:    ldrb r3, [r1]
; CHECK-NEXT:    ldrb r0, [r0, #1]
; CHECK-NEXT:    ldrb r1, [r1, #1]
; CHECK-NEXT:    muls r0, r1, r0
; CHECK-NEXT:    smlabb r0, r3, r2, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load i8, ptr %x, align 1
  %conv = zext i8 %0 to i32
  %1 = load i8, ptr %y, align 1
  %conv2 = zext i8 %1 to i32
  %mul = mul nuw nsw i32 %conv2, %conv
  %arrayidx.1 = getelementptr inbounds i8, ptr %x, i32 1
  %2 = load i8, ptr %arrayidx.1, align 1
  %conv.1 = zext i8 %2 to i32
  %arrayidx1.1 = getelementptr inbounds i8, ptr %y, i32 1
  %3 = load i8, ptr %arrayidx1.1, align 1
  %conv2.1 = zext i8 %3 to i32
  %mul.1 = mul nuw nsw i32 %conv2.1, %conv.1
  %add.1 = add nuw nsw i32 %mul.1, %mul
  ret i32 %add.1
}

define i32 @mlav4i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav4i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u32 q0, [r0]
; CHECK-NEXT:    vldrb.u32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i8>, ptr %x, align 1
  %1 = zext <4 x i8> %0 to <4 x i32>
  %2 = load <4 x i8>, ptr %y, align 1
  %3 = zext <4 x i8> %2 to <4 x i32>
  %4 = mul nuw nsw <4 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %4)
  ret i32 %5
}

define i32 @mlav8i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav8i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u16 q0, [r0]
; CHECK-NEXT:    vldrb.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i8>, ptr %x, align 1
  %1 = zext <8 x i8> %0 to <8 x i32>
  %2 = load <8 x i8>, ptr %y, align 1
  %3 = zext <8 x i8> %2 to <8 x i32>
  %4 = mul nuw nsw <8 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %4)
  ret i32 %5
}

define i32 @mlav16i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav16i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vldrb.u8 q1, [r1]
; CHECK-NEXT:    vmlav.u8 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i8>, ptr %x, align 1
  %1 = zext <16 x i8> %0 to <16 x i32>
  %2 = load <16 x i8>, ptr %y, align 1
  %3 = zext <16 x i8> %2 to <16 x i32>
  %4 = mul nuw nsw <16 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %4)
  ret i32 %5
}

define i32 @mlav24i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav24i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u16 q0, [r0]
; CHECK-NEXT:    vldrb.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #8]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #8]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i8>, ptr %x, align 1
  %1 = zext <8 x i8> %0 to <8 x i32>
  %2 = load <8 x i8>, ptr %y, align 1
  %3 = zext <8 x i8> %2 to <8 x i32>
  %4 = mul nuw nsw <8 x i32> %3, %1
  %arrayidx.8 = getelementptr inbounds i8, ptr %x, i32 8
  %arrayidx1.8 = getelementptr inbounds i8, ptr %y, i32 8
  %5 = load <16 x i8>, ptr %arrayidx.8, align 1
  %6 = zext <16 x i8> %5 to <16 x i32>
  %7 = load <16 x i8>, ptr %arrayidx1.8, align 1
  %8 = zext <16 x i8> %7 to <16 x i32>
  %9 = mul nuw nsw <16 x i32> %8, %6
  %10 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %9)
  %11 = call i32 @llvm.vector.reduce.add.v8i32(<8 x i32> %4)
  %op.rdx = add nuw nsw i32 %10, %11
  ret i32 %op.rdx
}

define i32 @mlav32i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav32i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u32 q0, [r0]
; CHECK-NEXT:    vldrb.u32 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    vldrb.u32 q0, [r2, #4]
; CHECK-NEXT:    vldrb.u32 q1, [r1, #4]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrb.u32 q0, [r2, #8]
; CHECK-NEXT:    vldrb.u32 q1, [r1, #8]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrb.u32 q0, [r2, #12]
; CHECK-NEXT:    vldrb.u32 q1, [r1, #12]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrb.u32 q0, [r2, #16]
; CHECK-NEXT:    vldrb.u32 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrb.u32 q0, [r2, #20]
; CHECK-NEXT:    vldrb.u32 q1, [r1, #20]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrb.u32 q0, [r2, #24]
; CHECK-NEXT:    vldrb.u32 q1, [r1, #24]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    vldrb.u32 q0, [r2, #28]
; CHECK-NEXT:    vldrb.u32 q1, [r1, #28]
; CHECK-NEXT:    vmlava.u32 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i8>, ptr %x, align 1
  %1 = zext <32 x i8> %0 to <32 x i32>
  %2 = load <32 x i8>, ptr %y, align 1
  %3 = zext <32 x i8> %2 to <32 x i32>
  %4 = mul nuw nsw <32 x i32> %3, %1
  %5 = call i32 @llvm.vector.reduce.add.v32i32(<32 x i32> %4)
  ret i32 %5
}

define i32 @mlav64i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav64i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vldrb.u8 q1, [r1]
; CHECK-NEXT:    vmlav.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #32]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #48]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    mov r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <16 x i8>, ptr %x, align 1
  %0 = zext <16 x i8> %wide.load to <16 x i32>
  %wide.load11 = load <16 x i8>, ptr %y, align 1
  %1 = zext <16 x i8> %wide.load11 to <16 x i32>
  %2 = mul nuw nsw <16 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %2)
  %4 = getelementptr inbounds i8, ptr %x, i32 16
  %wide.load.1 = load <16 x i8>, ptr %4, align 1
  %5 = zext <16 x i8> %wide.load.1 to <16 x i32>
  %6 = getelementptr inbounds i8, ptr %y, i32 16
  %wide.load11.1 = load <16 x i8>, ptr %6, align 1
  %7 = zext <16 x i8> %wide.load11.1 to <16 x i32>
  %8 = mul nuw nsw <16 x i32> %7, %5
  %9 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %8)
  %10 = add i32 %9, %3
  %11 = getelementptr inbounds i8, ptr %x, i32 32
  %wide.load.2 = load <16 x i8>, ptr %11, align 1
  %12 = zext <16 x i8> %wide.load.2 to <16 x i32>
  %13 = getelementptr inbounds i8, ptr %y, i32 32
  %wide.load11.2 = load <16 x i8>, ptr %13, align 1
  %14 = zext <16 x i8> %wide.load11.2 to <16 x i32>
  %15 = mul nuw nsw <16 x i32> %14, %12
  %16 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %15)
  %17 = add i32 %16, %10
  %18 = getelementptr inbounds i8, ptr %x, i32 48
  %wide.load.3 = load <16 x i8>, ptr %18, align 1
  %19 = zext <16 x i8> %wide.load.3 to <16 x i32>
  %20 = getelementptr inbounds i8, ptr %y, i32 48
  %wide.load11.3 = load <16 x i8>, ptr %20, align 1
  %21 = zext <16 x i8> %wide.load11.3 to <16 x i32>
  %22 = mul nuw nsw <16 x i32> %21, %19
  %23 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %22)
  %24 = add i32 %23, %17
  ret i32 %24
}

define i32 @mlav128i32i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav128i32i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vldrb.u8 q1, [r1]
; CHECK-NEXT:    mov r2, r0
; CHECK-NEXT:    vmlav.u8 r0, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r2, #16]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u8 r0, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r2, #32]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u8 r0, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r2, #48]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u8 r0, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r2, #64]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u8 r0, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r2, #80]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u8 r0, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r2, #96]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #96]
; CHECK-NEXT:    vmlava.u8 r0, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r2, #112]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #112]
; CHECK-NEXT:    vmlava.u8 r0, q1, q0
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <16 x i8>, ptr %x, align 1
  %0 = zext <16 x i8> %wide.load to <16 x i32>
  %wide.load11 = load <16 x i8>, ptr %y, align 1
  %1 = zext <16 x i8> %wide.load11 to <16 x i32>
  %2 = mul nuw nsw <16 x i32> %1, %0
  %3 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %2)
  %4 = getelementptr inbounds i8, ptr %x, i32 16
  %wide.load.1 = load <16 x i8>, ptr %4, align 1
  %5 = zext <16 x i8> %wide.load.1 to <16 x i32>
  %6 = getelementptr inbounds i8, ptr %y, i32 16
  %wide.load11.1 = load <16 x i8>, ptr %6, align 1
  %7 = zext <16 x i8> %wide.load11.1 to <16 x i32>
  %8 = mul nuw nsw <16 x i32> %7, %5
  %9 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %8)
  %10 = add i32 %9, %3
  %11 = getelementptr inbounds i8, ptr %x, i32 32
  %wide.load.2 = load <16 x i8>, ptr %11, align 1
  %12 = zext <16 x i8> %wide.load.2 to <16 x i32>
  %13 = getelementptr inbounds i8, ptr %y, i32 32
  %wide.load11.2 = load <16 x i8>, ptr %13, align 1
  %14 = zext <16 x i8> %wide.load11.2 to <16 x i32>
  %15 = mul nuw nsw <16 x i32> %14, %12
  %16 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %15)
  %17 = add i32 %16, %10
  %18 = getelementptr inbounds i8, ptr %x, i32 48
  %wide.load.3 = load <16 x i8>, ptr %18, align 1
  %19 = zext <16 x i8> %wide.load.3 to <16 x i32>
  %20 = getelementptr inbounds i8, ptr %y, i32 48
  %wide.load11.3 = load <16 x i8>, ptr %20, align 1
  %21 = zext <16 x i8> %wide.load11.3 to <16 x i32>
  %22 = mul nuw nsw <16 x i32> %21, %19
  %23 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %22)
  %24 = add i32 %23, %17
  %25 = getelementptr inbounds i8, ptr %x, i32 64
  %wide.load.4 = load <16 x i8>, ptr %25, align 1
  %26 = zext <16 x i8> %wide.load.4 to <16 x i32>
  %27 = getelementptr inbounds i8, ptr %y, i32 64
  %wide.load11.4 = load <16 x i8>, ptr %27, align 1
  %28 = zext <16 x i8> %wide.load11.4 to <16 x i32>
  %29 = mul nuw nsw <16 x i32> %28, %26
  %30 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %29)
  %31 = add i32 %30, %24
  %32 = getelementptr inbounds i8, ptr %x, i32 80
  %wide.load.5 = load <16 x i8>, ptr %32, align 1
  %33 = zext <16 x i8> %wide.load.5 to <16 x i32>
  %34 = getelementptr inbounds i8, ptr %y, i32 80
  %wide.load11.5 = load <16 x i8>, ptr %34, align 1
  %35 = zext <16 x i8> %wide.load11.5 to <16 x i32>
  %36 = mul nuw nsw <16 x i32> %35, %33
  %37 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %36)
  %38 = add i32 %37, %31
  %39 = getelementptr inbounds i8, ptr %x, i32 96
  %wide.load.6 = load <16 x i8>, ptr %39, align 1
  %40 = zext <16 x i8> %wide.load.6 to <16 x i32>
  %41 = getelementptr inbounds i8, ptr %y, i32 96
  %wide.load11.6 = load <16 x i8>, ptr %41, align 1
  %42 = zext <16 x i8> %wide.load11.6 to <16 x i32>
  %43 = mul nuw nsw <16 x i32> %42, %40
  %44 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %43)
  %45 = add i32 %44, %38
  %46 = getelementptr inbounds i8, ptr %x, i32 112
  %wide.load.7 = load <16 x i8>, ptr %46, align 1
  %47 = zext <16 x i8> %wide.load.7 to <16 x i32>
  %48 = getelementptr inbounds i8, ptr %y, i32 112
  %wide.load11.7 = load <16 x i8>, ptr %48, align 1
  %49 = zext <16 x i8> %wide.load11.7 to <16 x i32>
  %50 = mul nuw nsw <16 x i32> %49, %47
  %51 = call i32 @llvm.vector.reduce.add.v16i32(<16 x i32> %50)
  %52 = add i32 %51, %45
  ret i32 %52
}

define signext i16 @mlav2i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav2i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrh r2, [r0]
; CHECK-NEXT:    ldrh r3, [r1]
; CHECK-NEXT:    ldrh r0, [r0, #2]
; CHECK-NEXT:    ldrh r1, [r1, #2]
; CHECK-NEXT:    muls r2, r3, r2
; CHECK-NEXT:    mla r0, r1, r0, r2
; CHECK-NEXT:    sxth r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load i16, ptr %x, align 2
  %1 = load i16, ptr %y, align 2
  %mul = mul i16 %1, %0
  %arrayidx.1 = getelementptr inbounds i16, ptr %x, i32 1
  %2 = load i16, ptr %arrayidx.1, align 2
  %arrayidx1.1 = getelementptr inbounds i16, ptr %y, i32 1
  %3 = load i16, ptr %arrayidx1.1, align 2
  %mul.1 = mul i16 %3, %2
  %add.1 = add i16 %mul.1, %mul
  ret i16 %add.1
}

define signext i16 @mlav4i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav4i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u32 q0, [r0]
; CHECK-NEXT:    vldrh.u32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    sxth r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i16>, ptr %x, align 2
  %1 = load <4 x i16>, ptr %y, align 2
  %2 = mul <4 x i16> %1, %0
  %3 = call i16 @llvm.vector.reduce.add.v4i16(<4 x i16> %2)
  ret i16 %3
}

define signext i16 @mlav8i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav8i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r0, q1, q0
; CHECK-NEXT:    sxth r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i16>, ptr %x, align 2
  %1 = load <8 x i16>, ptr %y, align 2
  %2 = mul <8 x i16> %1, %0
  %3 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %2)
  ret i16 %3
}

define signext i16 @mlav16i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav16i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i16>, ptr %x, align 2
  %1 = load <16 x i16>, ptr %y, align 2
  %2 = mul <16 x i16> %1, %0
  %3 = call i16 @llvm.vector.reduce.add.v16i16(<16 x i16> %2)
  ret i16 %3
}

define signext i16 @mlav24i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav24i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i16>, ptr %x, align 2
  %1 = load <8 x i16>, ptr %y, align 2
  %2 = mul <8 x i16> %1, %0
  %arrayidx.8 = getelementptr inbounds i16, ptr %x, i32 8
  %arrayidx1.8 = getelementptr inbounds i16, ptr %y, i32 8
  %3 = load <16 x i16>, ptr %arrayidx.8, align 2
  %4 = load <16 x i16>, ptr %arrayidx1.8, align 2
  %5 = mul <16 x i16> %4, %3
  %6 = call i16 @llvm.vector.reduce.add.v16i16(<16 x i16> %5)
  %7 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %2)
  %op.rdx = add i16 %6, %7
  ret i16 %op.rdx
}

define signext i16 @mlav32i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav32i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #48]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i16>, ptr %x, align 2
  %1 = load <32 x i16>, ptr %y, align 2
  %2 = mul <32 x i16> %1, %0
  %3 = call i16 @llvm.vector.reduce.add.v32i16(<32 x i16> %2)
  ret i16 %3
}

define signext i16 @mlav64i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav64i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #48]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #64]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #80]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #96]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #96]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #112]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #112]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <8 x i16>, ptr %x, align 2
  %wide.load13 = load <8 x i16>, ptr %y, align 2
  %0 = mul <8 x i16> %wide.load13, %wide.load
  %1 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %0)
  %2 = getelementptr inbounds i16, ptr %x, i32 8
  %wide.load.1 = load <8 x i16>, ptr %2, align 2
  %3 = getelementptr inbounds i16, ptr %y, i32 8
  %wide.load13.1 = load <8 x i16>, ptr %3, align 2
  %4 = mul <8 x i16> %wide.load13.1, %wide.load.1
  %5 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %4)
  %6 = add i16 %5, %1
  %7 = getelementptr inbounds i16, ptr %x, i32 16
  %wide.load.2 = load <8 x i16>, ptr %7, align 2
  %8 = getelementptr inbounds i16, ptr %y, i32 16
  %wide.load13.2 = load <8 x i16>, ptr %8, align 2
  %9 = mul <8 x i16> %wide.load13.2, %wide.load.2
  %10 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %9)
  %11 = add i16 %10, %6
  %12 = getelementptr inbounds i16, ptr %x, i32 24
  %wide.load.3 = load <8 x i16>, ptr %12, align 2
  %13 = getelementptr inbounds i16, ptr %y, i32 24
  %wide.load13.3 = load <8 x i16>, ptr %13, align 2
  %14 = mul <8 x i16> %wide.load13.3, %wide.load.3
  %15 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %14)
  %16 = add i16 %15, %11
  %17 = getelementptr inbounds i16, ptr %x, i32 32
  %wide.load.4 = load <8 x i16>, ptr %17, align 2
  %18 = getelementptr inbounds i16, ptr %y, i32 32
  %wide.load13.4 = load <8 x i16>, ptr %18, align 2
  %19 = mul <8 x i16> %wide.load13.4, %wide.load.4
  %20 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %19)
  %21 = add i16 %20, %16
  %22 = getelementptr inbounds i16, ptr %x, i32 40
  %wide.load.5 = load <8 x i16>, ptr %22, align 2
  %23 = getelementptr inbounds i16, ptr %y, i32 40
  %wide.load13.5 = load <8 x i16>, ptr %23, align 2
  %24 = mul <8 x i16> %wide.load13.5, %wide.load.5
  %25 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %24)
  %26 = add i16 %25, %21
  %27 = getelementptr inbounds i16, ptr %x, i32 48
  %wide.load.6 = load <8 x i16>, ptr %27, align 2
  %28 = getelementptr inbounds i16, ptr %y, i32 48
  %wide.load13.6 = load <8 x i16>, ptr %28, align 2
  %29 = mul <8 x i16> %wide.load13.6, %wide.load.6
  %30 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %29)
  %31 = add i16 %30, %26
  %32 = getelementptr inbounds i16, ptr %x, i32 56
  %wide.load.7 = load <8 x i16>, ptr %32, align 2
  %33 = getelementptr inbounds i16, ptr %y, i32 56
  %wide.load13.7 = load <8 x i16>, ptr %33, align 2
  %34 = mul <8 x i16> %wide.load13.7, %wide.load.7
  %35 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %34)
  %36 = add i16 %35, %31
  ret i16 %36
}

define signext i16 @mlav128i16i16(ptr %x, ptr %y) {
; CHECK-LABEL: mlav128i16i16:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrh.u16 q0, [r0]
; CHECK-NEXT:    vldrh.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #16]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #32]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #48]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #64]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #80]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #96]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #96]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #112]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #112]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #128]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #128]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #144]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #144]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #160]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #160]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #176]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #176]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #192]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #192]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #208]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #208]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #224]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #224]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    vldrh.u16 q0, [r0, #240]
; CHECK-NEXT:    vldrh.u16 q1, [r1, #240]
; CHECK-NEXT:    vmlava.u16 r2, q1, q0
; CHECK-NEXT:    sxth r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <8 x i16>, ptr %x, align 2
  %wide.load13 = load <8 x i16>, ptr %y, align 2
  %0 = mul <8 x i16> %wide.load13, %wide.load
  %1 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %0)
  %2 = getelementptr inbounds i16, ptr %x, i32 8
  %wide.load.1 = load <8 x i16>, ptr %2, align 2
  %3 = getelementptr inbounds i16, ptr %y, i32 8
  %wide.load13.1 = load <8 x i16>, ptr %3, align 2
  %4 = mul <8 x i16> %wide.load13.1, %wide.load.1
  %5 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %4)
  %6 = add i16 %5, %1
  %7 = getelementptr inbounds i16, ptr %x, i32 16
  %wide.load.2 = load <8 x i16>, ptr %7, align 2
  %8 = getelementptr inbounds i16, ptr %y, i32 16
  %wide.load13.2 = load <8 x i16>, ptr %8, align 2
  %9 = mul <8 x i16> %wide.load13.2, %wide.load.2
  %10 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %9)
  %11 = add i16 %10, %6
  %12 = getelementptr inbounds i16, ptr %x, i32 24
  %wide.load.3 = load <8 x i16>, ptr %12, align 2
  %13 = getelementptr inbounds i16, ptr %y, i32 24
  %wide.load13.3 = load <8 x i16>, ptr %13, align 2
  %14 = mul <8 x i16> %wide.load13.3, %wide.load.3
  %15 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %14)
  %16 = add i16 %15, %11
  %17 = getelementptr inbounds i16, ptr %x, i32 32
  %wide.load.4 = load <8 x i16>, ptr %17, align 2
  %18 = getelementptr inbounds i16, ptr %y, i32 32
  %wide.load13.4 = load <8 x i16>, ptr %18, align 2
  %19 = mul <8 x i16> %wide.load13.4, %wide.load.4
  %20 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %19)
  %21 = add i16 %20, %16
  %22 = getelementptr inbounds i16, ptr %x, i32 40
  %wide.load.5 = load <8 x i16>, ptr %22, align 2
  %23 = getelementptr inbounds i16, ptr %y, i32 40
  %wide.load13.5 = load <8 x i16>, ptr %23, align 2
  %24 = mul <8 x i16> %wide.load13.5, %wide.load.5
  %25 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %24)
  %26 = add i16 %25, %21
  %27 = getelementptr inbounds i16, ptr %x, i32 48
  %wide.load.6 = load <8 x i16>, ptr %27, align 2
  %28 = getelementptr inbounds i16, ptr %y, i32 48
  %wide.load13.6 = load <8 x i16>, ptr %28, align 2
  %29 = mul <8 x i16> %wide.load13.6, %wide.load.6
  %30 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %29)
  %31 = add i16 %30, %26
  %32 = getelementptr inbounds i16, ptr %x, i32 56
  %wide.load.7 = load <8 x i16>, ptr %32, align 2
  %33 = getelementptr inbounds i16, ptr %y, i32 56
  %wide.load13.7 = load <8 x i16>, ptr %33, align 2
  %34 = mul <8 x i16> %wide.load13.7, %wide.load.7
  %35 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %34)
  %36 = add i16 %35, %31
  %37 = getelementptr inbounds i16, ptr %x, i32 64
  %wide.load.8 = load <8 x i16>, ptr %37, align 2
  %38 = getelementptr inbounds i16, ptr %y, i32 64
  %wide.load13.8 = load <8 x i16>, ptr %38, align 2
  %39 = mul <8 x i16> %wide.load13.8, %wide.load.8
  %40 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %39)
  %41 = add i16 %40, %36
  %42 = getelementptr inbounds i16, ptr %x, i32 72
  %wide.load.9 = load <8 x i16>, ptr %42, align 2
  %43 = getelementptr inbounds i16, ptr %y, i32 72
  %wide.load13.9 = load <8 x i16>, ptr %43, align 2
  %44 = mul <8 x i16> %wide.load13.9, %wide.load.9
  %45 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %44)
  %46 = add i16 %45, %41
  %47 = getelementptr inbounds i16, ptr %x, i32 80
  %wide.load.10 = load <8 x i16>, ptr %47, align 2
  %48 = getelementptr inbounds i16, ptr %y, i32 80
  %wide.load13.10 = load <8 x i16>, ptr %48, align 2
  %49 = mul <8 x i16> %wide.load13.10, %wide.load.10
  %50 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %49)
  %51 = add i16 %50, %46
  %52 = getelementptr inbounds i16, ptr %x, i32 88
  %wide.load.11 = load <8 x i16>, ptr %52, align 2
  %53 = getelementptr inbounds i16, ptr %y, i32 88
  %wide.load13.11 = load <8 x i16>, ptr %53, align 2
  %54 = mul <8 x i16> %wide.load13.11, %wide.load.11
  %55 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %54)
  %56 = add i16 %55, %51
  %57 = getelementptr inbounds i16, ptr %x, i32 96
  %wide.load.12 = load <8 x i16>, ptr %57, align 2
  %58 = getelementptr inbounds i16, ptr %y, i32 96
  %wide.load13.12 = load <8 x i16>, ptr %58, align 2
  %59 = mul <8 x i16> %wide.load13.12, %wide.load.12
  %60 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %59)
  %61 = add i16 %60, %56
  %62 = getelementptr inbounds i16, ptr %x, i32 104
  %wide.load.13 = load <8 x i16>, ptr %62, align 2
  %63 = getelementptr inbounds i16, ptr %y, i32 104
  %wide.load13.13 = load <8 x i16>, ptr %63, align 2
  %64 = mul <8 x i16> %wide.load13.13, %wide.load.13
  %65 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %64)
  %66 = add i16 %65, %61
  %67 = getelementptr inbounds i16, ptr %x, i32 112
  %wide.load.14 = load <8 x i16>, ptr %67, align 2
  %68 = getelementptr inbounds i16, ptr %y, i32 112
  %wide.load13.14 = load <8 x i16>, ptr %68, align 2
  %69 = mul <8 x i16> %wide.load13.14, %wide.load.14
  %70 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %69)
  %71 = add i16 %70, %66
  %72 = getelementptr inbounds i16, ptr %x, i32 120
  %wide.load.15 = load <8 x i16>, ptr %72, align 2
  %73 = getelementptr inbounds i16, ptr %y, i32 120
  %wide.load13.15 = load <8 x i16>, ptr %73, align 2
  %74 = mul <8 x i16> %wide.load13.15, %wide.load.15
  %75 = call i16 @llvm.vector.reduce.add.v8i16(<8 x i16> %74)
  %76 = add i16 %75, %71
  ret i16 %76
}

define zeroext i8 @mlav2i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav2i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    ldrb r2, [r0]
; CHECK-NEXT:    ldrb r3, [r1]
; CHECK-NEXT:    ldrb r0, [r0, #1]
; CHECK-NEXT:    ldrb r1, [r1, #1]
; CHECK-NEXT:    muls r2, r3, r2
; CHECK-NEXT:    mla r0, r1, r0, r2
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load i8, ptr %x, align 1
  %1 = load i8, ptr %y, align 1
  %mul = mul i8 %1, %0
  %arrayidx.1 = getelementptr inbounds i8, ptr %x, i32 1
  %2 = load i8, ptr %arrayidx.1, align 1
  %arrayidx1.1 = getelementptr inbounds i8, ptr %y, i32 1
  %3 = load i8, ptr %arrayidx1.1, align 1
  %mul.1 = mul i8 %3, %2
  %add.1 = add i8 %mul.1, %mul
  ret i8 %add.1
}

define zeroext i8 @mlav4i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav4i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u32 q0, [r0]
; CHECK-NEXT:    vldrb.u32 q1, [r1]
; CHECK-NEXT:    vmlav.u32 r0, q1, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <4 x i8>, ptr %x, align 1
  %1 = load <4 x i8>, ptr %y, align 1
  %2 = mul <4 x i8> %1, %0
  %3 = call i8 @llvm.vector.reduce.add.v4i8(<4 x i8> %2)
  ret i8 %3
}

define zeroext i8 @mlav8i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav8i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u16 q0, [r0]
; CHECK-NEXT:    vldrb.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r0, q1, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i8>, ptr %x, align 1
  %1 = load <8 x i8>, ptr %y, align 1
  %2 = mul <8 x i8> %1, %0
  %3 = call i8 @llvm.vector.reduce.add.v8i8(<8 x i8> %2)
  ret i8 %3
}

define zeroext i8 @mlav16i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav16i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vldrb.u8 q1, [r1]
; CHECK-NEXT:    vmlav.u8 r0, q1, q0
; CHECK-NEXT:    uxtb r0, r0
; CHECK-NEXT:    bx lr
entry:
  %0 = load <16 x i8>, ptr %x, align 1
  %1 = load <16 x i8>, ptr %y, align 1
  %2 = mul <16 x i8> %1, %0
  %3 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %2)
  ret i8 %3
}

define zeroext i8 @mlav24i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav24i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u16 q0, [r0]
; CHECK-NEXT:    vldrb.u16 q1, [r1]
; CHECK-NEXT:    vmlav.u16 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #8]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #8]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    uxtb r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <8 x i8>, ptr %x, align 1
  %1 = load <8 x i8>, ptr %y, align 1
  %2 = mul <8 x i8> %1, %0
  %arrayidx.8 = getelementptr inbounds i8, ptr %x, i32 8
  %arrayidx1.8 = getelementptr inbounds i8, ptr %y, i32 8
  %3 = load <16 x i8>, ptr %arrayidx.8, align 1
  %4 = load <16 x i8>, ptr %arrayidx1.8, align 1
  %5 = mul <16 x i8> %4, %3
  %6 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %5)
  %7 = call i8 @llvm.vector.reduce.add.v8i8(<8 x i8> %2)
  %op.rdx = add i8 %6, %7
  ret i8 %op.rdx
}

define zeroext i8 @mlav32i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav32i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vldrb.u8 q1, [r1]
; CHECK-NEXT:    vmlav.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    uxtb r0, r2
; CHECK-NEXT:    bx lr
entry:
  %0 = load <32 x i8>, ptr %x, align 1
  %1 = load <32 x i8>, ptr %y, align 1
  %2 = mul <32 x i8> %1, %0
  %3 = call i8 @llvm.vector.reduce.add.v32i8(<32 x i8> %2)
  ret i8 %3
}

define zeroext i8 @mlav64i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav64i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vldrb.u8 q1, [r1]
; CHECK-NEXT:    vmlav.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #32]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #48]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    uxtb r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <16 x i8>, ptr %x, align 1
  %wide.load12 = load <16 x i8>, ptr %y, align 1
  %0 = mul <16 x i8> %wide.load12, %wide.load
  %1 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %0)
  %2 = getelementptr inbounds i8, ptr %x, i32 16
  %wide.load.1 = load <16 x i8>, ptr %2, align 1
  %3 = getelementptr inbounds i8, ptr %y, i32 16
  %wide.load12.1 = load <16 x i8>, ptr %3, align 1
  %4 = mul <16 x i8> %wide.load12.1, %wide.load.1
  %5 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %4)
  %6 = add i8 %5, %1
  %7 = getelementptr inbounds i8, ptr %x, i32 32
  %wide.load.2 = load <16 x i8>, ptr %7, align 1
  %8 = getelementptr inbounds i8, ptr %y, i32 32
  %wide.load12.2 = load <16 x i8>, ptr %8, align 1
  %9 = mul <16 x i8> %wide.load12.2, %wide.load.2
  %10 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %9)
  %11 = add i8 %10, %6
  %12 = getelementptr inbounds i8, ptr %x, i32 48
  %wide.load.3 = load <16 x i8>, ptr %12, align 1
  %13 = getelementptr inbounds i8, ptr %y, i32 48
  %wide.load12.3 = load <16 x i8>, ptr %13, align 1
  %14 = mul <16 x i8> %wide.load12.3, %wide.load.3
  %15 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %14)
  %16 = add i8 %15, %11
  ret i8 %16
}

define zeroext i8 @mlav128i8i8(ptr %x, ptr %y) {
; CHECK-LABEL: mlav128i8i8:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vldrb.u8 q0, [r0]
; CHECK-NEXT:    vldrb.u8 q1, [r1]
; CHECK-NEXT:    vmlav.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #16]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #16]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #32]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #32]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #48]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #48]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #64]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #64]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #80]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #80]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #96]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #96]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    vldrb.u8 q0, [r0, #112]
; CHECK-NEXT:    vldrb.u8 q1, [r1, #112]
; CHECK-NEXT:    vmlava.u8 r2, q1, q0
; CHECK-NEXT:    uxtb r0, r2
; CHECK-NEXT:    bx lr
entry:
  %wide.load = load <16 x i8>, ptr %x, align 1
  %wide.load12 = load <16 x i8>, ptr %y, align 1
  %0 = mul <16 x i8> %wide.load12, %wide.load
  %1 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %0)
  %2 = getelementptr inbounds i8, ptr %x, i32 16
  %wide.load.1 = load <16 x i8>, ptr %2, align 1
  %3 = getelementptr inbounds i8, ptr %y, i32 16
  %wide.load12.1 = load <16 x i8>, ptr %3, align 1
  %4 = mul <16 x i8> %wide.load12.1, %wide.load.1
  %5 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %4)
  %6 = add i8 %5, %1
  %7 = getelementptr inbounds i8, ptr %x, i32 32
  %wide.load.2 = load <16 x i8>, ptr %7, align 1
  %8 = getelementptr inbounds i8, ptr %y, i32 32
  %wide.load12.2 = load <16 x i8>, ptr %8, align 1
  %9 = mul <16 x i8> %wide.load12.2, %wide.load.2
  %10 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %9)
  %11 = add i8 %10, %6
  %12 = getelementptr inbounds i8, ptr %x, i32 48
  %wide.load.3 = load <16 x i8>, ptr %12, align 1
  %13 = getelementptr inbounds i8, ptr %y, i32 48
  %wide.load12.3 = load <16 x i8>, ptr %13, align 1
  %14 = mul <16 x i8> %wide.load12.3, %wide.load.3
  %15 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %14)
  %16 = add i8 %15, %11
  %17 = getelementptr inbounds i8, ptr %x, i32 64
  %wide.load.4 = load <16 x i8>, ptr %17, align 1
  %18 = getelementptr inbounds i8, ptr %y, i32 64
  %wide.load12.4 = load <16 x i8>, ptr %18, align 1
  %19 = mul <16 x i8> %wide.load12.4, %wide.load.4
  %20 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %19)
  %21 = add i8 %20, %16
  %22 = getelementptr inbounds i8, ptr %x, i32 80
  %wide.load.5 = load <16 x i8>, ptr %22, align 1
  %23 = getelementptr inbounds i8, ptr %y, i32 80
  %wide.load12.5 = load <16 x i8>, ptr %23, align 1
  %24 = mul <16 x i8> %wide.load12.5, %wide.load.5
  %25 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %24)
  %26 = add i8 %25, %21
  %27 = getelementptr inbounds i8, ptr %x, i32 96
  %wide.load.6 = load <16 x i8>, ptr %27, align 1
  %28 = getelementptr inbounds i8, ptr %y, i32 96
  %wide.load12.6 = load <16 x i8>, ptr %28, align 1
  %29 = mul <16 x i8> %wide.load12.6, %wide.load.6
  %30 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %29)
  %31 = add i8 %30, %26
  %32 = getelementptr inbounds i8, ptr %x, i32 112
  %wide.load.7 = load <16 x i8>, ptr %32, align 1
  %33 = getelementptr inbounds i8, ptr %y, i32 112
  %wide.load12.7 = load <16 x i8>, ptr %33, align 1
  %34 = mul <16 x i8> %wide.load12.7, %wide.load.7
  %35 = call i8 @llvm.vector.reduce.add.v16i8(<16 x i8> %34)
  %36 = add i8 %35, %31
  ret i8 %36
}


define arm_aapcs_vfpcc i32 @add_two_const(<4 x i32> %x, <4 x i32> %y) {
; CHECK-LABEL: add_two_const:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vaddv.u32 r0, q1
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    adds r0, #10
; CHECK-NEXT:    bx lr
entry:
  %a = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %x)
  %b = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %y)
  %c = add i32 %a, %b
  %d = add i32 %c, 10
  ret i32 %d
}

define arm_aapcs_vfpcc i32 @add_two_const2(<4 x i32> %x, <4 x i32> %y) {
; CHECK-LABEL: add_two_const2:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vaddv.u32 r0, q1
; CHECK-NEXT:    vaddva.u32 r0, q0
; CHECK-NEXT:    adds r0, #10
; CHECK-NEXT:    bx lr
entry:
  %a = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %x)
  %b = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %y)
  %c = add i32 %a, 10
  %d = add i32 %c, %b
  ret i32 %d
}

define arm_aapcs_vfpcc i32 @add_two_const3(<4 x i32> %x, <4 x i32> %y) {
; CHECK-LABEL: add_two_const3:
; CHECK:       @ %bb.0: @ %entry
; CHECK-NEXT:    vaddv.u32 r0, q0
; CHECK-NEXT:    vaddva.u32 r0, q1
; CHECK-NEXT:    adds r0, #20
; CHECK-NEXT:    bx lr
entry:
  %a = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %x)
  %b = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %y)
  %c = add i32 %a, 10
  %d = add i32 %b, 10
  %e = add i32 %c, %d
  ret i32 %e
}

declare i32 @llvm.vector.reduce.add.v4i32(<4 x i32>)
declare i32 @llvm.vector.reduce.add.v8i32(<8 x i32>)
declare i32 @llvm.vector.reduce.add.v16i32(<16 x i32>)
declare i32 @llvm.vector.reduce.add.v32i32(<32 x i32>)
declare i32 @llvm.vector.reduce.add.v64i32(<64 x i32>)
declare i16 @llvm.vector.reduce.add.v4i16(<4 x i16>)
declare i16 @llvm.vector.reduce.add.v8i16(<8 x i16>)
declare i16 @llvm.vector.reduce.add.v16i16(<16 x i16>)
declare i16 @llvm.vector.reduce.add.v32i16(<32 x i16>)
declare i16 @llvm.vector.reduce.add.v64i16(<64 x i16>)
declare i8 @llvm.vector.reduce.add.v4i8(<4 x i8>)
declare i8 @llvm.vector.reduce.add.v8i8(<8 x i8>)
declare i8 @llvm.vector.reduce.add.v16i8(<16 x i8>)
declare i8 @llvm.vector.reduce.add.v32i8(<32 x i8>)
declare i8 @llvm.vector.reduce.add.v64i8(<64 x i8>)