arch/amd64/s_log1p.S

05a0b428SJohn Marino/*	$OpenBSD: s_log1p.S,v 1.3 2009/04/08 23:31:34 martynas Exp $ */
05a0b428SJohn Marino/*
05a0b428SJohn Marino * Written by J.T. Conklin <jtc@NetBSD.org>.
05a0b428SJohn Marino * Public domain.
05a0b428SJohn Marino */
05a0b428SJohn Marino
05a0b428SJohn Marino/*
05a0b428SJohn Marino * Modified by Lex Wennmacher <wennmach@NetBSD.org>
05a0b428SJohn Marino * Still public domain.
05a0b428SJohn Marino */
05a0b428SJohn Marino
05a0b428SJohn Marino#include <machine/asm.h>
05a0b428SJohn Marino
05a0b428SJohn Marino#include "abi.h"
05a0b428SJohn Marino
05a0b428SJohn Marino/*
05a0b428SJohn Marino * The log1p() function is provided to compute an accurate value of
05a0b428SJohn Marino * log(1 + x), even for tiny values of x. The i387 FPU provides the
05a0b428SJohn Marino * fyl2xp1 instruction for this purpose. However, the range of this
05a0b428SJohn Marino * instruction is limited to:
05a0b428SJohn Marino * 		-(1 - (sqrt(2) / 2)) <= x <= sqrt(2) - 1
05a0b428SJohn Marino *                         -0.292893 <= x <= 0.414214
05a0b428SJohn Marino * at least on older processor versions.
05a0b428SJohn Marino *
05a0b428SJohn Marino * log1p() is implemented by testing the range of the argument.
05a0b428SJohn Marino * If it is appropriate for fyl2xp1, this instruction is used.
05a0b428SJohn Marino * Else, we compute log1p(x) = ln(2)*ld(1 + x) the traditional way
05a0b428SJohn Marino * (using fyl2x).
05a0b428SJohn Marino *
05a0b428SJohn Marino * The range testing costs speed, but as the rationale for the very
05a0b428SJohn Marino * existence of this function is accuracy, we accept that.
05a0b428SJohn Marino *
05a0b428SJohn Marino * In order to reduce the cost for testing the range, we check if
05a0b428SJohn Marino * the argument is in the range
05a0b428SJohn Marino *                             -0.25 <= x <= 0.25
05a0b428SJohn Marino * which can be done with just one conditional branch. If x is
05a0b428SJohn Marino * inside this range, we use fyl2xp1. Outside of this range,
05a0b428SJohn Marino * the use of fyl2x is accurate enough.
05a0b428SJohn Marino *
05a0b428SJohn Marino */
05a0b428SJohn Marino
05a0b428SJohn Marino.text
05a0b428SJohn Marino	.align	4
05a0b428SJohn MarinoENTRY(log1p)
05a0b428SJohn Marino	XMM_ONE_ARG_DOUBLE_PROLOGUE
05a0b428SJohn Marino	fldl	ARG_DOUBLE_ONE
05a0b428SJohn Marino	fabs
05a0b428SJohn Marino	fld1				/* ... x 1 */
05a0b428SJohn Marino	fadd	%st(0)			/* ... x 2 */
05a0b428SJohn Marino	fadd	%st(0)			/* ... x 4 */
05a0b428SJohn Marino	fld1				/* ... 4 1 */
05a0b428SJohn Marino	fdivp				/* ... x 0.25 */
05a0b428SJohn Marino	fcompp
05a0b428SJohn Marino	fnstsw	%ax
05a0b428SJohn Marino	andb	$69,%ah
05a0b428SJohn Marino	jne	use_fyl2x
05a0b428SJohn Marino	jmp	use_fyl2xp1
05a0b428SJohn Marino
05a0b428SJohn Marino	.align	4
05a0b428SJohn Marinouse_fyl2x:
05a0b428SJohn Marino	fldln2
05a0b428SJohn Marino	fldl	ARG_DOUBLE_ONE
05a0b428SJohn Marino	fld1
05a0b428SJohn Marino	faddp
05a0b428SJohn Marino	fyl2x
05a0b428SJohn Marino	XMM_DOUBLE_EPILOGUE
05a0b428SJohn Marino	ret
05a0b428SJohn Marino
05a0b428SJohn Marino	.align	4
05a0b428SJohn Marinouse_fyl2xp1:
05a0b428SJohn Marino	fldln2
05a0b428SJohn Marino	fldl	ARG_DOUBLE_ONE
05a0b428SJohn Marino	fyl2xp1
05a0b428SJohn Marino	XMM_DOUBLE_EPILOGUE
05a0b428SJohn Marino	ret
*a27bb01fSJohn MarinoEND(log1p)
*a27bb01fSJohn Marino
*a27bb01fSJohn Marino	.section .note.GNU-stack,"",%progbits