lib/mldev/mldev_utils_neon.c

fc54766bSSrikanth Yalavarthi/* SPDX-License-Identifier: BSD-3-Clause
fc54766bSSrikanth Yalavarthi * Copyright (c) 2022 Marvell.
fc54766bSSrikanth Yalavarthi */
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi#include <errno.h>
fc54766bSSrikanth Yalavarthi#include <stdint.h>
fc54766bSSrikanth Yalavarthi#include <stdlib.h>
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi#include "mldev_utils.h"
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi#include <arm_neon.h>
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi/* Description:
fc54766bSSrikanth Yalavarthi * This file implements vector versions of Machine Learning utility functions used to convert data
538f6997SSrikanth Yalavarthi * types from higher precision to lower precision and vice-versa, except bfloat16. Implementation
538f6997SSrikanth Yalavarthi * is based on Arm Neon intrinsics.
fc54766bSSrikanth Yalavarthi */
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int8_neon_s8x8(const float *input, int8_t *output, float scale, int8_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	int16x4_t s16x4_l;
fc54766bSSrikanth Yalavarthi	int16x4_t s16x4_h;
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	int16x8_t s16x8;
fc54766bSSrikanth Yalavarthi	int32x4_t s32x4;
fc54766bSSrikanth Yalavarthi	int8x8_t s8x8;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 float32 elements, scale, convert, saturate narrow to int16.
fc54766bSSrikanth Yalavarthi	 * Use round to nearest with ties away rounding mode.
fc54766bSSrikanth Yalavarthi	 */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_f32(input);
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	s32x4 = vcvtaq_s32_f32(f32x4);
fc54766bSSrikanth Yalavarthi	s16x4_l = vqmovn_s32(s32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load next 4 float32 elements, scale, convert, saturate narrow to int16.
fc54766bSSrikanth Yalavarthi	 * Use round to nearest with ties away rounding mode.
fc54766bSSrikanth Yalavarthi	 */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_f32(input + 4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	s32x4 = vcvtaq_s32_f32(f32x4);
fc54766bSSrikanth Yalavarthi	s16x4_h = vqmovn_s32(s32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* combine lower and higher int16x4_t to int16x8_t */
fc54766bSSrikanth Yalavarthi	s16x8 = vcombine_s16(s16x4_l, s16x4_h);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* narrow to int8_t */
fc54766bSSrikanth Yalavarthi	s8x8 = vqmovn_s16(s16x8);
*65282e9fSSrikanth Yalavarthi	s8x8 = vmax_s8(s8x8, vdup_n_s8(INT8_MIN + 1));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store 8 elements */
fc54766bSSrikanth Yalavarthi	vst1_s8(output, s8x8);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int8_neon_s8x1(const float *input, int8_t *output, float scale, int8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	float32x2_t f32x2;
*65282e9fSSrikanth Yalavarthi	int32x2_t s32x2;
fc54766bSSrikanth Yalavarthi	int16_t s16;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale and convert, round to nearest with ties away rounding mode */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(vdup_n_f32(*input), vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi	s32x2 = vcvta_s32_f32(f32x2);
*65282e9fSSrikanth Yalavarthi	s32x2 = vmax_s32(s32x2, vdup_n_s32(INT8_MIN + 1));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* saturate narrow */
*65282e9fSSrikanth Yalavarthi	s16 = vqmovns_s32(vget_lane_s32(s32x2, 0));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert to int8_t */
fc54766bSSrikanth Yalavarthi	*output = vqmovnh_s16(s16);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_int8(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			  int8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
fc54766bSSrikanth Yalavarthi	int8_t *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (int8_t *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(int8_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int8_neon_s8x8(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int8_neon_s8x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int8_to_float32_neon_f32x8(const int8_t *input, float *output, float scale, int8_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	int16x8_t s16x8;
fc54766bSSrikanth Yalavarthi	int16x4_t s16x4;
fc54766bSSrikanth Yalavarthi	int32x4_t s32x4;
fc54766bSSrikanth Yalavarthi	int8x8_t s8x8;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 8 x int8_t elements */
fc54766bSSrikanth Yalavarthi	s8x8 = vld1_s8(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* widen int8_t to int16_t */
fc54766bSSrikanth Yalavarthi	s16x8 = vmovl_s8(s8x8);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert lower 4 elements: widen to int32_t, convert to float, scale and store */
fc54766bSSrikanth Yalavarthi	s16x4 = vget_low_s16(s16x8);
fc54766bSSrikanth Yalavarthi	s32x4 = vmovl_s16(s16x4);
fc54766bSSrikanth Yalavarthi	f32x4 = vcvtq_f32_s32(s32x4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
fc54766bSSrikanth Yalavarthi	vst1q_f32(output, f32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert higher 4 elements: widen to int32_t, convert to float, scale and store */
fc54766bSSrikanth Yalavarthi	s16x4 = vget_high_s16(s16x8);
fc54766bSSrikanth Yalavarthi	s32x4 = vmovl_s16(s16x4);
fc54766bSSrikanth Yalavarthi	f32x4 = vcvtq_f32_s32(s32x4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
fc54766bSSrikanth Yalavarthi	vst1q_f32(output + 4, f32x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int8_to_float32_neon_f32x1(const int8_t *input, float *output, float scale, int8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	*output = scale * (vcvts_f32_s32((int32_t)*input) - (float)zero_point);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_int8_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			  int8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const int8_t *input_buffer;
fc54766bSSrikanth Yalavarthi	float *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const int8_t *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (float *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(int8_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__int8_to_float32_neon_f32x8(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__int8_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint8_neon_u8x8(const float *input, uint8_t *output, float scale, uint8_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	uint16x4_t u16x4_l;
fc54766bSSrikanth Yalavarthi	uint16x4_t u16x4_h;
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	uint32x4_t u32x4;
fc54766bSSrikanth Yalavarthi	uint16x8_t u16x8;
fc54766bSSrikanth Yalavarthi	uint8x8_t u8x8;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 float elements, scale, convert, saturate narrow to uint16_t.
fc54766bSSrikanth Yalavarthi	 * use round to nearest with ties away rounding mode.
fc54766bSSrikanth Yalavarthi	 */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_f32(input);
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	u32x4 = vcvtaq_u32_f32(f32x4);
fc54766bSSrikanth Yalavarthi	u16x4_l = vqmovn_u32(u32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load next 4 float elements, scale, convert, saturate narrow to uint16_t
fc54766bSSrikanth Yalavarthi	 * use round to nearest with ties away rounding mode.
fc54766bSSrikanth Yalavarthi	 */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_f32(input + 4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	u32x4 = vcvtaq_u32_f32(f32x4);
fc54766bSSrikanth Yalavarthi	u16x4_h = vqmovn_u32(u32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* combine lower and higher uint16x4_t */
fc54766bSSrikanth Yalavarthi	u16x8 = vcombine_u16(u16x4_l, u16x4_h);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* narrow to uint8x8_t */
fc54766bSSrikanth Yalavarthi	u8x8 = vqmovn_u16(u16x8);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store 8 elements */
fc54766bSSrikanth Yalavarthi	vst1_u8(output, u8x8);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint8_neon_u8x1(const float *input, uint8_t *output, float scale, uint8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	float32x2_t f32x2;
*65282e9fSSrikanth Yalavarthi	uint32x2_t u32x2;
fc54766bSSrikanth Yalavarthi	uint16_t u16;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale and convert, round to nearest with ties away rounding mode */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(vdup_n_f32(*input), vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi	u32x2 = vcvta_u32_f32(f32x2);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* saturate narrow */
*65282e9fSSrikanth Yalavarthi	u16 = vqmovns_u32(vget_lane_u32(u32x2, 0));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert to uint8_t */
fc54766bSSrikanth Yalavarthi	*output = vqmovnh_u16(u16);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_uint8(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
fc54766bSSrikanth Yalavarthi	uint8_t *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (uint8_t *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(uint8_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint8_neon_u8x8(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint8_neon_u8x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint8_to_float32_neon_f32x8(const uint8_t *input, float *output, float scale, uint8_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	uint16x8_t u16x8;
*65282e9fSSrikanth Yalavarthi	int16x8_t s16x8;
*65282e9fSSrikanth Yalavarthi	int16x4_t s16x4;
*65282e9fSSrikanth Yalavarthi	int32x4_t s32x4;
fc54766bSSrikanth Yalavarthi	uint8x8_t u8x8;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 8 x uint8_t elements */
fc54766bSSrikanth Yalavarthi	u8x8 = vld1_u8(input);
fc54766bSSrikanth Yalavarthi	u16x8 = vmovl_u8(u8x8);
*65282e9fSSrikanth Yalavarthi	s16x8 = vreinterpretq_s16_u16(u16x8);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert lower 4 elements: widen to uint32_t, convert to float, scale and store */
*65282e9fSSrikanth Yalavarthi	s16x4 = vget_low_s16(s16x8);
*65282e9fSSrikanth Yalavarthi	s32x4 = vmovl_s16(s16x4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vcvtq_f32_s32(s32x4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
fc54766bSSrikanth Yalavarthi	vst1q_f32(output, f32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert higher 4 elements: widen to uint32_t, convert to float, scale and store */
*65282e9fSSrikanth Yalavarthi	s16x4 = vget_high_s16(s16x8);
*65282e9fSSrikanth Yalavarthi	s32x4 = vmovl_s16(s16x4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vcvtq_f32_s32(s32x4);
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
fc54766bSSrikanth Yalavarthi	vst1q_f32(output + 4, f32x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint8_to_float32_neon_f32x1(const uint8_t *input, float *output, float scale, uint8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	*output = scale * (vcvts_f32_u32((uint32_t)*input) - (float)zero_point);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_uint8_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint8_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const uint8_t *input_buffer;
fc54766bSSrikanth Yalavarthi	float *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint64_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const uint8_t *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (float *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(uint8_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__uint8_to_float32_neon_f32x8(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__uint8_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int16_neon_s16x4(const float *input, int16_t *output, float scale, int16_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	int16x4_t s16x4;
fc54766bSSrikanth Yalavarthi	int32x4_t s32x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 x float elements */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_f32(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert to int32x4_t using round to nearest with ties away rounding mode */
fc54766bSSrikanth Yalavarthi	s32x4 = vcvtaq_s32_f32(f32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* saturate narrow to int16x4_t */
fc54766bSSrikanth Yalavarthi	s16x4 = vqmovn_s32(s32x4);
*65282e9fSSrikanth Yalavarthi	s16x4 = vmax_s16(s16x4, vdup_n_s16(INT16_MIN + 1));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store 4 elements */
fc54766bSSrikanth Yalavarthi	vst1_s16(output, s16x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int16_neon_s16x1(const float *input, int16_t *output, float scale, int16_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	float32x2_t f32x2;
*65282e9fSSrikanth Yalavarthi	int32x2_t s32x2;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale and convert, round to nearest with ties away rounding mode */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(vdup_n_f32(*input), vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi	s32x2 = vcvta_s32_f32(f32x2);
*65282e9fSSrikanth Yalavarthi	s32x2 = vmax_s32(s32x2, vdup_n_s32(INT16_MIN + 1));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* saturate narrow */
*65282e9fSSrikanth Yalavarthi	*output = vqmovns_s32(vget_lane_s32(s32x2, 0));
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_int16(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   int16_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
fc54766bSSrikanth Yalavarthi	int16_t *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (int16_t *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(int16_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int16_neon_s16x4(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int16_neon_s16x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int16_to_float32_neon_f32x4(const int16_t *input, float *output, float scale, int16_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	int16x4_t s16x4;
fc54766bSSrikanth Yalavarthi	int32x4_t s32x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 x int16_t elements */
fc54766bSSrikanth Yalavarthi	s16x4 = vld1_s16(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* widen int16_t to int32_t */
fc54766bSSrikanth Yalavarthi	s32x4 = vmovl_s16(s16x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert int32_t to float */
fc54766bSSrikanth Yalavarthi	f32x4 = vcvtq_f32_s32(s32x4);
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale */
fc54766bSSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store float32x4_t */
fc54766bSSrikanth Yalavarthi	vst1q_f32(output, f32x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int16_to_float32_neon_f32x1(const int16_t *input, float *output, float scale, int16_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	*output = scale * (vcvts_f32_s32((int32_t)*input) - (float)zero_point);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_int16_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   int16_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const int16_t *input_buffer;
fc54766bSSrikanth Yalavarthi	float *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const int16_t *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (float *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(int16_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__int16_to_float32_neon_f32x4(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__int16_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint16_neon_u16x4(const float *input, uint16_t *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint16_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	uint16x4_t u16x4;
fc54766bSSrikanth Yalavarthi	uint32x4_t u32x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 float elements */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_f32(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert using round to nearest with ties to away rounding mode */
fc54766bSSrikanth Yalavarthi	u32x4 = vcvtaq_u32_f32(f32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* saturate narrow */
fc54766bSSrikanth Yalavarthi	u16x4 = vqmovn_u32(u32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store 4 elements */
fc54766bSSrikanth Yalavarthi	vst1_u16(output, u16x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint16_neon_u16x1(const float *input, uint16_t *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint16_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	uint32_t u32;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale and convert, round to nearest with ties away rounding mode */
*65282e9fSSrikanth Yalavarthi	u32 = vcvtas_u32_f32((*input) / scale + (float)zero_point);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* saturate narrow */
*65282e9fSSrikanth Yalavarthi	*output = vqmovns_u32(u32) + zero_point;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_uint16(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint16_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
fc54766bSSrikanth Yalavarthi	uint16_t *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint64_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (uint16_t *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(uint16_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint16_neon_u16x4(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint16_neon_u16x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint16_to_float32_neon_f32x4(const uint16_t *input, float *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint16_t zero_point)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	uint16x4_t u16x4;
fc54766bSSrikanth Yalavarthi	uint32x4_t u32x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 x uint16_t elements */
fc54766bSSrikanth Yalavarthi	u16x4 = vld1_u16(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* widen uint16_t to uint32_t */
fc54766bSSrikanth Yalavarthi	u32x4 = vmovl_u16(u16x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert uint32_t to float */
fc54766bSSrikanth Yalavarthi	f32x4 = vcvtq_f32_u32(u32x4);
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* scale */
fc54766bSSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store float32x4_t */
fc54766bSSrikanth Yalavarthi	vst1q_f32(output, f32x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint16_to_float32_neon_f32x1(const uint16_t *input, float *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint16_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	*output = scale * (vcvts_f32_u32((uint32_t)*input) - (float)zero_point);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_uint16_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint16_t zero_point)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const uint16_t *input_buffer;
fc54766bSSrikanth Yalavarthi	float *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const uint16_t *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (float *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(uint16_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__uint16_to_float32_neon_f32x4(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__uint16_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int32_neon_s32x4(const float *input, int32_t *output, float scale, int32_t zero_point)
50513ae5SSrikanth Yalavarthi{
50513ae5SSrikanth Yalavarthi	float32x4_t f32x4;
50513ae5SSrikanth Yalavarthi	int32x4_t s32x4;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* load 4 x float elements */
50513ae5SSrikanth Yalavarthi	f32x4 = vld1q_f32(input);
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert to int32x4_t using round to nearest with ties away rounding mode */
50513ae5SSrikanth Yalavarthi	s32x4 = vcvtaq_s32_f32(f32x4);
50513ae5SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero_point */
*65282e9fSSrikanth Yalavarthi	s32x4 = vaddq_s32(s32x4, vdupq_n_s32(zero_point));
*65282e9fSSrikanth Yalavarthi	s32x4 = vmaxq_s32(s32x4, vdupq_n_s32(INT32_MIN + 1));
*65282e9fSSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* store 4 elements */
50513ae5SSrikanth Yalavarthi	vst1q_s32(output, s32x4);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int32_neon_s32x1(const float *input, int32_t *output, float scale, int32_t zero_point)
50513ae5SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	float32x2_t f32x2;
*65282e9fSSrikanth Yalavarthi	int32x2_t s32x2;
*65282e9fSSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* scale and convert, round to nearest with ties away rounding mode */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(vdup_n_f32(*input), vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi	s32x2 = vcvta_s32_f32(f32x2);
*65282e9fSSrikanth Yalavarthi	s32x2 = vmax_s32(s32x2, vdup_n_s32(INT16_MIN + 1));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* saturate narrow */
*65282e9fSSrikanth Yalavarthi	vst1_lane_s32(output, s32x2, 0);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_int32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   int32_t zero_point)
50513ae5SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
50513ae5SSrikanth Yalavarthi	int32_t *output_buffer;
50513ae5SSrikanth Yalavarthi	uint64_t nb_iterations;
50513ae5SSrikanth Yalavarthi	uint32_t vlen;
50513ae5SSrikanth Yalavarthi	uint64_t i;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
50513ae5SSrikanth Yalavarthi		return -EINVAL;
50513ae5SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
50513ae5SSrikanth Yalavarthi	output_buffer = (int32_t *)output;
50513ae5SSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(int32_t);
50513ae5SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
50513ae5SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int32_neon_s32x4(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer += vlen;
50513ae5SSrikanth Yalavarthi		output_buffer += vlen;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert leftover elements */
50513ae5SSrikanth Yalavarthi	i = i * vlen;
50513ae5SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int32_neon_s32x1(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer++;
50513ae5SSrikanth Yalavarthi		output_buffer++;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	return 0;
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int32_to_float32_neon_f32x4(const int32_t *input, float *output, float scale, int32_t zero_point)
50513ae5SSrikanth Yalavarthi{
50513ae5SSrikanth Yalavarthi	float32x4_t f32x4;
50513ae5SSrikanth Yalavarthi	int32x4_t s32x4;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* load 4 x int32_t elements */
50513ae5SSrikanth Yalavarthi	s32x4 = vld1q_s32(input);
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert int32_t to float */
50513ae5SSrikanth Yalavarthi	f32x4 = vcvtq_f32_s32(s32x4);
50513ae5SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* scale */
50513ae5SSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* store float32x4_t */
50513ae5SSrikanth Yalavarthi	vst1q_f32(output, f32x4);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int32_to_float32_neon_f32x1(const int32_t *input, float *output, float scale, int32_t zero_point)
50513ae5SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	*output = scale * (vcvts_f32_s32(*input) - (float)zero_point);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_int32_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   int32_t zero_point)
50513ae5SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const int32_t *input_buffer;
50513ae5SSrikanth Yalavarthi	float *output_buffer;
50513ae5SSrikanth Yalavarthi	uint64_t nb_iterations;
50513ae5SSrikanth Yalavarthi	uint32_t vlen;
50513ae5SSrikanth Yalavarthi	uint64_t i;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
50513ae5SSrikanth Yalavarthi		return -EINVAL;
50513ae5SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const int32_t *)input;
50513ae5SSrikanth Yalavarthi	output_buffer = (float *)output;
50513ae5SSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(int32_t);
50513ae5SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
50513ae5SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__int32_to_float32_neon_f32x4(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer += vlen;
50513ae5SSrikanth Yalavarthi		output_buffer += vlen;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert leftover elements */
50513ae5SSrikanth Yalavarthi	i = i * vlen;
50513ae5SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__int32_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer++;
50513ae5SSrikanth Yalavarthi		output_buffer++;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	return 0;
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint32_neon_u32x4(const float *input, uint32_t *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint32_t zero_point)
50513ae5SSrikanth Yalavarthi{
50513ae5SSrikanth Yalavarthi	float32x4_t f32x4;
50513ae5SSrikanth Yalavarthi	uint32x4_t u32x4;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* load 4 float elements */
50513ae5SSrikanth Yalavarthi	f32x4 = vld1q_f32(input);
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x4 = vdivq_f32(f32x4, vdupq_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vaddq_f32(f32x4, vdupq_n_f32((float)zero_point));
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert using round to nearest with ties to away rounding mode */
50513ae5SSrikanth Yalavarthi	u32x4 = vcvtaq_u32_f32(f32x4);
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* store 4 elements */
50513ae5SSrikanth Yalavarthi	vst1q_u32(output, u32x4);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint32_neon_u32x1(const float *input, uint32_t *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint32_t zero_point)
50513ae5SSrikanth Yalavarthi{
50513ae5SSrikanth Yalavarthi	/* scale and convert, round to nearest with ties away rounding mode */
*65282e9fSSrikanth Yalavarthi	*output = vcvtas_u32_f32((*input) / scale + (float)zero_point);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_uint32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint32_t zero_point)
50513ae5SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
50513ae5SSrikanth Yalavarthi	uint32_t *output_buffer;
50513ae5SSrikanth Yalavarthi	uint64_t nb_iterations;
50513ae5SSrikanth Yalavarthi	uint64_t vlen;
50513ae5SSrikanth Yalavarthi	uint64_t i;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
50513ae5SSrikanth Yalavarthi		return -EINVAL;
50513ae5SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
50513ae5SSrikanth Yalavarthi	output_buffer = (uint32_t *)output;
50513ae5SSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(uint32_t);
50513ae5SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
50513ae5SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint32_neon_u32x4(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer += vlen;
50513ae5SSrikanth Yalavarthi		output_buffer += vlen;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert leftover elements */
50513ae5SSrikanth Yalavarthi	i = i * vlen;
50513ae5SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint32_neon_u32x1(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer++;
50513ae5SSrikanth Yalavarthi		output_buffer++;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	return 0;
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint32_to_float32_neon_f32x4(const uint32_t *input, float *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint32_t zero_point)
50513ae5SSrikanth Yalavarthi{
50513ae5SSrikanth Yalavarthi	float32x4_t f32x4;
50513ae5SSrikanth Yalavarthi	uint32x4_t u32x4;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* load 4 x uint32_t elements */
50513ae5SSrikanth Yalavarthi	u32x4 = vld1q_u32(input);
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert uint32_t to float */
50513ae5SSrikanth Yalavarthi	f32x4 = vcvtq_f32_u32(u32x4);
50513ae5SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero point */
*65282e9fSSrikanth Yalavarthi	f32x4 = vsubq_f32(f32x4, vdupq_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* scale */
50513ae5SSrikanth Yalavarthi	f32x4 = vmulq_n_f32(f32x4, scale);
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* store float32x4_t */
50513ae5SSrikanth Yalavarthi	vst1q_f32(output, f32x4);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint32_to_float32_neon_f32x1(const uint32_t *input, float *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint32_t zero_point)
50513ae5SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	*output = scale * (vcvts_f32_u32(*input) - (float)zero_point);
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_uint32_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint32_t zero_point)
50513ae5SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const uint32_t *input_buffer;
50513ae5SSrikanth Yalavarthi	float *output_buffer;
50513ae5SSrikanth Yalavarthi	uint64_t nb_iterations;
50513ae5SSrikanth Yalavarthi	uint32_t vlen;
50513ae5SSrikanth Yalavarthi	uint64_t i;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
50513ae5SSrikanth Yalavarthi		return -EINVAL;
50513ae5SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const uint32_t *)input;
50513ae5SSrikanth Yalavarthi	output_buffer = (float *)output;
50513ae5SSrikanth Yalavarthi	vlen = 2 * sizeof(float) / sizeof(uint32_t);
50513ae5SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
50513ae5SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__uint32_to_float32_neon_f32x4(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer += vlen;
50513ae5SSrikanth Yalavarthi		output_buffer += vlen;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	/* convert leftover elements */
50513ae5SSrikanth Yalavarthi	i = i * vlen;
50513ae5SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__uint32_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
50513ae5SSrikanth Yalavarthi		input_buffer++;
50513ae5SSrikanth Yalavarthi		output_buffer++;
50513ae5SSrikanth Yalavarthi	}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthi	return 0;
50513ae5SSrikanth Yalavarthi}
50513ae5SSrikanth Yalavarthi
50513ae5SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int64_neon_s64x2(const float *input, int64_t *output, float scale, int64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	int64x2_t s64x2;
*65282e9fSSrikanth Yalavarthi	int64_t s64;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 2 x float elements */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vld1_f32(input);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(f32x2, vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvt_f64_f32(f32x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to int64x2_t */
42f3dcd9SSrikanth Yalavarthi	s64x2 = vcvtaq_s64_f64(f64x2);
*65282e9fSSrikanth Yalavarthi	s64 = vgetq_lane_s64(s64x2, 0);
*65282e9fSSrikanth Yalavarthi	s64 = (s64 == INT64_MIN) ? INT64_MIN + 1 : s64;
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* store lane 0 of int64x2_t */
*65282e9fSSrikanth Yalavarthi	*output = s64;
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_int64_neon_s64x1(const float *input, int64_t *output, float scale, int64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	int64x2_t s64x2;
*65282e9fSSrikanth Yalavarthi	int64_t s64;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 1 x float element */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vdup_n_f32(*input);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(f32x2, vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvt_f64_f32(f32x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to int64x2_t */
42f3dcd9SSrikanth Yalavarthi	s64x2 = vcvtaq_s64_f64(f64x2);
*65282e9fSSrikanth Yalavarthi	s64 = vgetq_lane_s64(s64x2, 0);
*65282e9fSSrikanth Yalavarthi	s64 = (s64 == INT64_MIN) ? INT64_MIN + 1 : s64;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* store lane 0 of int64x2_t */
*65282e9fSSrikanth Yalavarthi	*output = s64;
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_int64(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   int64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
42f3dcd9SSrikanth Yalavarthi	int64_t *output_buffer;
42f3dcd9SSrikanth Yalavarthi	uint64_t nb_iterations;
42f3dcd9SSrikanth Yalavarthi	uint32_t vlen;
42f3dcd9SSrikanth Yalavarthi	uint64_t i;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
42f3dcd9SSrikanth Yalavarthi		return -EINVAL;
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
42f3dcd9SSrikanth Yalavarthi	output_buffer = (int64_t *)output;
42f3dcd9SSrikanth Yalavarthi	vlen = 4 * sizeof(float) / sizeof(int64_t);
42f3dcd9SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
42f3dcd9SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int64_neon_s64x2(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi		output_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert leftover elements */
42f3dcd9SSrikanth Yalavarthi	i = i * vlen;
42f3dcd9SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_int64_neon_s64x1(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer++;
42f3dcd9SSrikanth Yalavarthi		output_buffer++;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	return 0;
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int64_to_float32_neon_f32x2(const int64_t *input, float *output, float scale, int64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	int64x2_t s64x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 2 x int64_t elements */
42f3dcd9SSrikanth Yalavarthi	s64x2 = vld1q_s64(input);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert int64x2_t to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvtq_f64_s64(s64x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert float64x2_t to float32x2_t */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vcvt_f32_f64(f64x2);
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero_point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vsub_f32(f32x2, vdup_n_f32(zero_point));
*65282e9fSSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vmul_n_f32(f32x2, scale);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* store float32x2_t */
42f3dcd9SSrikanth Yalavarthi	vst1_f32(output, f32x2);
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__int64_to_float32_neon_f32x1(const int64_t *input, float *output, float scale, int64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	int64x2_t s64x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 2 x int64_t elements */
42f3dcd9SSrikanth Yalavarthi	s64x2 = vld1q_lane_s64(input, vdupq_n_s64(0), 0);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert int64x2_t to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvtq_f64_s64(s64x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert float64x2_t to float32x2_t */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vcvt_f32_f64(f64x2);
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero_point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vsub_f32(f32x2, vdup_n_f32(zero_point));
*65282e9fSSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vmul_n_f32(f32x2, scale);
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* store float32x2_t lane 0 */
42f3dcd9SSrikanth Yalavarthi	vst1_lane_f32(output, f32x2, 0);
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_int64_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   int64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const int64_t *input_buffer;
42f3dcd9SSrikanth Yalavarthi	float *output_buffer;
42f3dcd9SSrikanth Yalavarthi	uint64_t nb_iterations;
42f3dcd9SSrikanth Yalavarthi	uint32_t vlen;
42f3dcd9SSrikanth Yalavarthi	uint64_t i;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
42f3dcd9SSrikanth Yalavarthi		return -EINVAL;
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const int64_t *)input;
42f3dcd9SSrikanth Yalavarthi	output_buffer = (float *)output;
42f3dcd9SSrikanth Yalavarthi	vlen = 4 * sizeof(float) / sizeof(int64_t);
42f3dcd9SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
42f3dcd9SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__int64_to_float32_neon_f32x2(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi		output_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert leftover elements */
42f3dcd9SSrikanth Yalavarthi	i = i * vlen;
42f3dcd9SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__int64_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer++;
42f3dcd9SSrikanth Yalavarthi		output_buffer++;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	return 0;
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint64_neon_u64x2(const float *input, uint64_t *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	uint64x2_t u64x2;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 2 x float elements */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vld1_f32(input);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(f32x2, vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvt_f64_f32(f32x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to int64x2_t */
42f3dcd9SSrikanth Yalavarthi	u64x2 = vcvtaq_u64_f64(f64x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* store 2 elements */
42f3dcd9SSrikanth Yalavarthi	vst1q_u64(output, u64x2);
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_uint64_neon_u64x1(const float *input, uint64_t *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	uint64x2_t u64x2;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 1 x float element */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vld1_lane_f32(input, vdup_n_f32(0), 0);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
*65282e9fSSrikanth Yalavarthi	f32x2 = vdiv_f32(f32x2, vdup_n_f32(scale));
*65282e9fSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* add zero_point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vadd_f32(f32x2, vdup_n_f32((float)zero_point));
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvt_f64_f32(f32x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert to int64x2_t */
42f3dcd9SSrikanth Yalavarthi	u64x2 = vcvtaq_u64_f64(f64x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* store 2 elements */
42f3dcd9SSrikanth Yalavarthi	vst1q_lane_u64(output, u64x2, 0);
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_uint64(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float *input_buffer;
42f3dcd9SSrikanth Yalavarthi	uint64_t *output_buffer;
42f3dcd9SSrikanth Yalavarthi	uint64_t nb_iterations;
42f3dcd9SSrikanth Yalavarthi	uint32_t vlen;
42f3dcd9SSrikanth Yalavarthi	uint64_t i;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
42f3dcd9SSrikanth Yalavarthi		return -EINVAL;
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float *)input;
42f3dcd9SSrikanth Yalavarthi	output_buffer = (uint64_t *)output;
42f3dcd9SSrikanth Yalavarthi	vlen = 4 * sizeof(float) / sizeof(uint64_t);
42f3dcd9SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
42f3dcd9SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint64_neon_u64x2(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi		output_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert leftover elements */
42f3dcd9SSrikanth Yalavarthi	i = i * vlen;
42f3dcd9SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__float32_to_uint64_neon_u64x1(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer++;
42f3dcd9SSrikanth Yalavarthi		output_buffer++;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	return 0;
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint64_to_float32_neon_f32x2(const uint64_t *input, float *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	uint64x2_t u64x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 2 x int64_t elements */
42f3dcd9SSrikanth Yalavarthi	u64x2 = vld1q_u64(input);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert int64x2_t to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvtq_f64_u64(u64x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert float64x2_t to float32x2_t */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vcvt_f32_f64(f64x2);
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero_point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vsub_f32(f32x2, vdup_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vmul_n_f32(f32x2, scale);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* store float32x2_t */
42f3dcd9SSrikanth Yalavarthi	vst1_f32(output, f32x2);
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__uint64_to_float32_neon_f32x1(const uint64_t *input, float *output, float scale,
*65282e9fSSrikanth Yalavarthi			       uint64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
42f3dcd9SSrikanth Yalavarthi	uint64x2_t u64x2;
42f3dcd9SSrikanth Yalavarthi	float64x2_t f64x2;
42f3dcd9SSrikanth Yalavarthi	float32x2_t f32x2;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* load 2 x int64_t elements */
42f3dcd9SSrikanth Yalavarthi	u64x2 = vld1q_lane_u64(input, vdupq_n_u64(0), 0);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert int64x2_t to float64x2_t */
42f3dcd9SSrikanth Yalavarthi	f64x2 = vcvtq_f64_u64(u64x2);
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert float64x2_t to float32x2_t */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vcvt_f32_f64(f64x2);
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* subtract zero_point */
*65282e9fSSrikanth Yalavarthi	f32x2 = vsub_f32(f32x2, vdup_n_f32((float)zero_point));
*65282e9fSSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* scale */
42f3dcd9SSrikanth Yalavarthi	f32x2 = vmul_n_f32(f32x2, scale);
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	/* store float32x2_t lane 0 */
42f3dcd9SSrikanth Yalavarthi	vst1_lane_f32(output, f32x2, 0);
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_uint64_to_float32(const void *input, void *output, uint64_t nb_elements, float scale,
*65282e9fSSrikanth Yalavarthi			   uint64_t zero_point)
42f3dcd9SSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const uint64_t *input_buffer;
42f3dcd9SSrikanth Yalavarthi	float *output_buffer;
42f3dcd9SSrikanth Yalavarthi	uint64_t nb_iterations;
42f3dcd9SSrikanth Yalavarthi	uint32_t vlen;
42f3dcd9SSrikanth Yalavarthi	uint64_t i;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	if ((scale == 0) || (nb_elements == 0) || (input == NULL) || (output == NULL))
42f3dcd9SSrikanth Yalavarthi		return -EINVAL;
42f3dcd9SSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const uint64_t *)input;
42f3dcd9SSrikanth Yalavarthi	output_buffer = (float *)output;
42f3dcd9SSrikanth Yalavarthi	vlen = 4 * sizeof(float) / sizeof(uint64_t);
42f3dcd9SSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert vlen elements in each iteration */
42f3dcd9SSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
*65282e9fSSrikanth Yalavarthi		__uint64_to_float32_neon_f32x2(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi		output_buffer += vlen;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	/* convert leftover elements */
42f3dcd9SSrikanth Yalavarthi	i = i * vlen;
42f3dcd9SSrikanth Yalavarthi	for (; i < nb_elements; i++) {
*65282e9fSSrikanth Yalavarthi		__uint64_to_float32_neon_f32x1(input_buffer, output_buffer, scale, zero_point);
42f3dcd9SSrikanth Yalavarthi		input_buffer++;
42f3dcd9SSrikanth Yalavarthi		output_buffer++;
42f3dcd9SSrikanth Yalavarthi	}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthi	return 0;
42f3dcd9SSrikanth Yalavarthi}
42f3dcd9SSrikanth Yalavarthi
42f3dcd9SSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_float16_neon_f16x4(const float32_t *input, float16_t *output)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	float16x4_t f16x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 x float32_t elements */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_f32(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert to float16x4_t */
fc54766bSSrikanth Yalavarthi	f16x4 = vcvt_f16_f32(f32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store float16x4_t */
fc54766bSSrikanth Yalavarthi	vst1_f16(output, f16x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float32_to_float16_neon_f16x1(const float32_t *input, float16_t *output)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi	float16x4_t f16x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load element to 4 lanes */
fc54766bSSrikanth Yalavarthi	f32x4 = vld1q_dup_f32(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert float32_t to float16_t */
fc54766bSSrikanth Yalavarthi	f16x4 = vcvt_f16_f32(f32x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store lane 0 / 1 element */
fc54766bSSrikanth Yalavarthi	vst1_lane_f16(output, f16x4, 0);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float32_to_float16(const void *input, void *output, uint64_t nb_elements)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float32_t *input_buffer;
fc54766bSSrikanth Yalavarthi	float16_t *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float32_t *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (float16_t *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float32_t) / sizeof(float16_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
fc54766bSSrikanth Yalavarthi		__float32_to_float16_neon_f16x4(input_buffer, output_buffer);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
fc54766bSSrikanth Yalavarthi		__float32_to_float16_neon_f16x1(input_buffer, output_buffer);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float16_to_float32_neon_f32x4(const float16_t *input, float32_t *output)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float16x4_t f16x4;
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load 4 x float16_t elements */
fc54766bSSrikanth Yalavarthi	f16x4 = vld1_f16(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert float16x4_t to float32x4_t */
fc54766bSSrikanth Yalavarthi	f32x4 = vcvt_f32_f16(f16x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store float32x4_t */
fc54766bSSrikanth Yalavarthi	vst1q_f32(output, f32x4);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthistatic inline void
*65282e9fSSrikanth Yalavarthi__float16_to_float32_neon_f32x1(const float16_t *input, float32_t *output)
fc54766bSSrikanth Yalavarthi{
fc54766bSSrikanth Yalavarthi	float16x4_t f16x4;
fc54766bSSrikanth Yalavarthi	float32x4_t f32x4;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* load element to 4 lanes */
fc54766bSSrikanth Yalavarthi	f16x4 = vld1_dup_f16(input);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert float16_t to float32_t */
fc54766bSSrikanth Yalavarthi	f32x4 = vcvt_f32_f16(f16x4);
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* store 1 element */
fc54766bSSrikanth Yalavarthi	vst1q_lane_f32(output, f32x4, 0);
fc54766bSSrikanth Yalavarthi}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthiint
*65282e9fSSrikanth Yalavarthirte_ml_io_float16_to_float32(const void *input, void *output, uint64_t nb_elements)
fc54766bSSrikanth Yalavarthi{
*65282e9fSSrikanth Yalavarthi	const float16_t *input_buffer;
fc54766bSSrikanth Yalavarthi	float32_t *output_buffer;
fc54766bSSrikanth Yalavarthi	uint64_t nb_iterations;
fc54766bSSrikanth Yalavarthi	uint32_t vlen;
fc54766bSSrikanth Yalavarthi	uint64_t i;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	if ((nb_elements == 0) || (input == NULL) || (output == NULL))
fc54766bSSrikanth Yalavarthi		return -EINVAL;
fc54766bSSrikanth Yalavarthi
*65282e9fSSrikanth Yalavarthi	input_buffer = (const float16_t *)input;
fc54766bSSrikanth Yalavarthi	output_buffer = (float32_t *)output;
fc54766bSSrikanth Yalavarthi	vlen = 2 * sizeof(float32_t) / sizeof(float16_t);
fc54766bSSrikanth Yalavarthi	nb_iterations = nb_elements / vlen;
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert vlen elements in each iteration */
fc54766bSSrikanth Yalavarthi	for (i = 0; i < nb_iterations; i++) {
fc54766bSSrikanth Yalavarthi		__float16_to_float32_neon_f32x4(input_buffer, output_buffer);
fc54766bSSrikanth Yalavarthi		input_buffer += vlen;
fc54766bSSrikanth Yalavarthi		output_buffer += vlen;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	/* convert leftover elements */
fc54766bSSrikanth Yalavarthi	i = i * vlen;
fc54766bSSrikanth Yalavarthi	for (; i < nb_elements; i++) {
fc54766bSSrikanth Yalavarthi		__float16_to_float32_neon_f32x1(input_buffer, output_buffer);
fc54766bSSrikanth Yalavarthi		input_buffer++;
fc54766bSSrikanth Yalavarthi		output_buffer++;
fc54766bSSrikanth Yalavarthi	}
fc54766bSSrikanth Yalavarthi
fc54766bSSrikanth Yalavarthi	return 0;
fc54766bSSrikanth Yalavarthi}