libraries/libldap/utf-8.c

*549b59edSchristos/*	$NetBSD: utf-8.c,v 1.3 2021/08/14 16:14:56 christos Exp $	*/
4e6df137Slukem
2de962bdSlukem/* utf-8.c -- Basic UTF-8 routines */
d11b170bStron/* $OpenLDAP$ */
2de962bdSlukem/* This work is part of OpenLDAP Software <http://www.openldap.org/>.
2de962bdSlukem *
*549b59edSchristos * Copyright 1998-2021 The OpenLDAP Foundation.
2de962bdSlukem * All rights reserved.
2de962bdSlukem *
2de962bdSlukem * Redistribution and use in source and binary forms, with or without
2de962bdSlukem * modification, are permitted only as authorized by the OpenLDAP
2de962bdSlukem * Public License.
2de962bdSlukem *
2de962bdSlukem * A copy of this license is available in the file LICENSE in the
2de962bdSlukem * top-level directory of the distribution or, alternatively, at
2de962bdSlukem * <http://www.OpenLDAP.org/license.html>.
2de962bdSlukem */
2de962bdSlukem/* Basic UTF-8 routines
2de962bdSlukem *
2de962bdSlukem * These routines are "dumb".  Though they understand UTF-8,
2de962bdSlukem * they don't grok Unicode.  That is, they can push bits,
2de962bdSlukem * but don't have a clue what the bits represent.  That's
2de962bdSlukem * good enough for use with the LDAP Client SDK.
2de962bdSlukem *
2de962bdSlukem * These routines are not optimized.
2de962bdSlukem */
2de962bdSlukem
376af7d7Schristos#include <sys/cdefs.h>
*549b59edSchristos__RCSID("$NetBSD: utf-8.c,v 1.3 2021/08/14 16:14:56 christos Exp $");
376af7d7Schristos
2de962bdSlukem#include "portable.h"
2de962bdSlukem
2de962bdSlukem#include <stdio.h>
2de962bdSlukem
2de962bdSlukem#include <ac/stdlib.h>
2de962bdSlukem
2de962bdSlukem#include <ac/socket.h>
2de962bdSlukem#include <ac/string.h>
2de962bdSlukem#include <ac/time.h>
2de962bdSlukem
2de962bdSlukem#include "ldap_utf8.h"
2de962bdSlukem
2de962bdSlukem#include "ldap-int.h"
2de962bdSlukem#include "ldap_defaults.h"
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * return the number of bytes required to hold the
2de962bdSlukem * NULL-terminated UTF-8 string NOT INCLUDING the
2de962bdSlukem * termination.
2de962bdSlukem */
2de962bdSlukember_len_t ldap_utf8_bytes( const char * p )
2de962bdSlukem{
2de962bdSlukem	ber_len_t bytes;
2de962bdSlukem
2de962bdSlukem	for( bytes=0; p[bytes]; bytes++ ) {
2de962bdSlukem		/* EMPTY */ ;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return bytes;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukember_len_t ldap_utf8_chars( const char * p )
2de962bdSlukem{
2de962bdSlukem	/* could be optimized and could check for invalid sequences */
2de962bdSlukem	ber_len_t chars=0;
2de962bdSlukem
2de962bdSlukem	for( ; *p ; LDAP_UTF8_INCR(p) ) {
2de962bdSlukem		chars++;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return chars;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/* return offset to next character */
2de962bdSlukemint ldap_utf8_offset( const char * p )
2de962bdSlukem{
2de962bdSlukem	return LDAP_UTF8_NEXT(p) - p;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * Returns length indicated by first byte.
2de962bdSlukem */
2de962bdSlukemconst char ldap_utf8_lentab[] = {
2de962bdSlukem	0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
2de962bdSlukem	0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
2de962bdSlukem	0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
2de962bdSlukem	0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
2de962bdSlukem	0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2de962bdSlukem	2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2de962bdSlukem	3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
2de962bdSlukem	4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 0, 0 };
2de962bdSlukem
2de962bdSlukemint ldap_utf8_charlen( const char * p )
2de962bdSlukem{
2de962bdSlukem	if (!(*p & 0x80))
2de962bdSlukem		return 1;
2de962bdSlukem
2de962bdSlukem	return ldap_utf8_lentab[*(const unsigned char *)p ^ 0x80];
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * Make sure the UTF-8 char used the shortest possible encoding
2de962bdSlukem * returns charlen if valid, 0 if not.
2de962bdSlukem *
2de962bdSlukem * Here are the valid UTF-8 encodings, taken from RFC 2279 page 4.
2de962bdSlukem * The table is slightly modified from that of the RFC.
2de962bdSlukem *
2de962bdSlukem * UCS-4 range (hex)      UTF-8 sequence (binary)
2de962bdSlukem * 0000 0000-0000 007F   0.......
2de962bdSlukem * 0000 0080-0000 07FF   110++++. 10......
2de962bdSlukem * 0000 0800-0000 FFFF   1110++++ 10+..... 10......
2de962bdSlukem * 0001 0000-001F FFFF   11110+++ 10++.... 10...... 10......
2de962bdSlukem * 0020 0000-03FF FFFF   111110++ 10+++... 10...... 10...... 10......
2de962bdSlukem * 0400 0000-7FFF FFFF   1111110+ 10++++.. 10...... 10...... 10...... 10......
2de962bdSlukem *
2de962bdSlukem * The '.' bits are "don't cares". When validating a UTF-8 sequence,
2de962bdSlukem * at least one of the '+' bits must be set, otherwise the character
2de962bdSlukem * should have been encoded in fewer octets. Note that in the two-octet
2de962bdSlukem * case, only the first octet needs to be validated, and this is done
2de962bdSlukem * in the ldap_utf8_lentab[] above.
2de962bdSlukem */
2de962bdSlukem
2de962bdSlukem/* mask of required bits in second octet */
2de962bdSlukem#undef c
2de962bdSlukem#define c const char
2de962bdSlukemc ldap_utf8_mintab[] = {
2de962bdSlukem	(c)0x20, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80,
2de962bdSlukem	(c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80,
2de962bdSlukem	(c)0x30, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80, (c)0x80,
2de962bdSlukem	(c)0x38, (c)0x80, (c)0x80, (c)0x80, (c)0x3c, (c)0x80, (c)0x00, (c)0x00 };
2de962bdSlukem#undef c
2de962bdSlukem
2de962bdSlukemint ldap_utf8_charlen2( const char * p )
2de962bdSlukem{
2de962bdSlukem	int i = LDAP_UTF8_CHARLEN( p );
2de962bdSlukem
2de962bdSlukem	if ( i > 2 ) {
2de962bdSlukem		if ( !( ldap_utf8_mintab[*p & 0x1f] & p[1] ) )
2de962bdSlukem			i = 0;
2de962bdSlukem	}
2de962bdSlukem	return i;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/* conv UTF-8 to UCS-4, useful for comparisons */
2de962bdSlukemldap_ucs4_t ldap_x_utf8_to_ucs4( const char * p )
2de962bdSlukem{
2de962bdSlukem    const unsigned char *c = (const unsigned char *) p;
2de962bdSlukem    ldap_ucs4_t ch;
2de962bdSlukem	int len, i;
2de962bdSlukem	static unsigned char mask[] = {
2de962bdSlukem		0, 0x7f, 0x1f, 0x0f, 0x07, 0x03, 0x01 };
2de962bdSlukem
2de962bdSlukem	len = LDAP_UTF8_CHARLEN2(p, len);
2de962bdSlukem
2de962bdSlukem	if( len == 0 ) return LDAP_UCS4_INVALID;
2de962bdSlukem
2de962bdSlukem	ch = c[0] & mask[len];
2de962bdSlukem
2de962bdSlukem	for(i=1; i < len; i++) {
2de962bdSlukem		if ((c[i] & 0xc0) != 0x80) {
2de962bdSlukem			return LDAP_UCS4_INVALID;
2de962bdSlukem		}
2de962bdSlukem
2de962bdSlukem		ch <<= 6;
2de962bdSlukem		ch |= c[i] & 0x3f;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return ch;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/* conv UCS-4 to UTF-8, not used */
2de962bdSlukemint ldap_x_ucs4_to_utf8( ldap_ucs4_t c, char *buf )
2de962bdSlukem{
2de962bdSlukem	int len=0;
2de962bdSlukem	unsigned char* p = (unsigned char *) buf;
2de962bdSlukem
2de962bdSlukem	/* not a valid Unicode character */
2de962bdSlukem	if ( c < 0 ) return 0;
2de962bdSlukem
2de962bdSlukem	/* Just return length, don't convert */
2de962bdSlukem	if(buf == NULL) {
2de962bdSlukem		if( c < 0x80 ) return 1;
2de962bdSlukem		else if( c < 0x800 ) return 2;
2de962bdSlukem		else if( c < 0x10000 ) return 3;
2de962bdSlukem		else if( c < 0x200000 ) return 4;
2de962bdSlukem		else if( c < 0x4000000 ) return 5;
2de962bdSlukem		else return 6;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	if( c < 0x80 ) {
2de962bdSlukem		p[len++] = c;
2de962bdSlukem
2de962bdSlukem	} else if( c < 0x800 ) {
2de962bdSlukem		p[len++] = 0xc0 | ( c >> 6 );
2de962bdSlukem		p[len++] = 0x80 | ( c & 0x3f );
2de962bdSlukem
2de962bdSlukem	} else if( c < 0x10000 ) {
2de962bdSlukem		p[len++] = 0xe0 | ( c >> 12 );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 6) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( c & 0x3f );
2de962bdSlukem
2de962bdSlukem	} else if( c < 0x200000 ) {
2de962bdSlukem		p[len++] = 0xf0 | ( c >> 18 );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 12) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 6) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( c & 0x3f );
2de962bdSlukem
2de962bdSlukem	} else if( c < 0x4000000 ) {
2de962bdSlukem		p[len++] = 0xf8 | ( c >> 24 );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 18) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 12) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 6) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( c & 0x3f );
2de962bdSlukem
2de962bdSlukem	} else /* if( c < 0x80000000 ) */ {
2de962bdSlukem		p[len++] = 0xfc | ( c >> 30 );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 24) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 18) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 12) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( (c >> 6) & 0x3f );
2de962bdSlukem		p[len++] = 0x80 | ( c & 0x3f );
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return len;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem#define LDAP_UCS_UTF8LEN(c)	\
2de962bdSlukem	c < 0 ? 0 : (c < 0x80 ? 1 : (c < 0x800 ? 2 : (c < 0x10000 ? 3 : \
2de962bdSlukem	(c < 0x200000 ? 4 : (c < 0x4000000 ? 5 : 6)))))
2de962bdSlukem
2de962bdSlukem/* Convert a string to UTF-8 format. The input string is expected to
2de962bdSlukem * have characters of 1, 2, or 4 octets (in network byte order)
2de962bdSlukem * corresponding to the ASN.1 T61STRING, BMPSTRING, and UNIVERSALSTRING
2de962bdSlukem * types respectively. (Here T61STRING just means that there is one
2de962bdSlukem * octet per character and characters may use the high bit of the octet.
2de962bdSlukem * The characters are assumed to use ISO mappings, no provision is made
2de962bdSlukem * for converting from T.61 coding rules to Unicode.)
2de962bdSlukem */
2de962bdSlukem
2de962bdSlukemint
2de962bdSlukemldap_ucs_to_utf8s( struct berval *ucs, int csize, struct berval *utf8s )
2de962bdSlukem{
2de962bdSlukem	unsigned char *in, *end;
2de962bdSlukem	char *ptr;
2de962bdSlukem	ldap_ucs4_t u;
2de962bdSlukem	int i, l = 0;
2de962bdSlukem
2de962bdSlukem	utf8s->bv_val = NULL;
2de962bdSlukem	utf8s->bv_len = 0;
2de962bdSlukem
2de962bdSlukem	in = (unsigned char *)ucs->bv_val;
2de962bdSlukem
2de962bdSlukem	/* Make sure we stop at an even multiple of csize */
2de962bdSlukem	end = in + ( ucs->bv_len & ~(csize-1) );
2de962bdSlukem
2de962bdSlukem	for (; in < end; ) {
2de962bdSlukem		u = *in++;
2de962bdSlukem		if (csize > 1) {
2de962bdSlukem			u <<= 8;
2de962bdSlukem			u |= *in++;
2de962bdSlukem		}
2de962bdSlukem		if (csize > 2) {
2de962bdSlukem			u <<= 8;
2de962bdSlukem			u |= *in++;
2de962bdSlukem			u <<= 8;
2de962bdSlukem			u |= *in++;
2de962bdSlukem		}
2de962bdSlukem		i = LDAP_UCS_UTF8LEN(u);
2de962bdSlukem		if (i == 0)
2de962bdSlukem			return LDAP_INVALID_SYNTAX;
2de962bdSlukem		l += i;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	utf8s->bv_val = LDAP_MALLOC( l+1 );
2de962bdSlukem	if (utf8s->bv_val == NULL)
2de962bdSlukem		return LDAP_NO_MEMORY;
2de962bdSlukem	utf8s->bv_len = l;
2de962bdSlukem
2de962bdSlukem	ptr = utf8s->bv_val;
2de962bdSlukem	for (in = (unsigned char *)ucs->bv_val; in < end; ) {
2de962bdSlukem		u = *in++;
2de962bdSlukem		if (csize > 1) {
2de962bdSlukem			u <<= 8;
2de962bdSlukem			u |= *in++;
2de962bdSlukem		}
2de962bdSlukem		if (csize > 2) {
2de962bdSlukem			u <<= 8;
2de962bdSlukem			u |= *in++;
2de962bdSlukem			u <<= 8;
2de962bdSlukem			u |= *in++;
2de962bdSlukem		}
2de962bdSlukem		ptr += ldap_x_ucs4_to_utf8(u, ptr);
2de962bdSlukem	}
2de962bdSlukem	*ptr = '\0';
2de962bdSlukem	return LDAP_SUCCESS;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * Advance to the next UTF-8 character
2de962bdSlukem *
2de962bdSlukem * Ignores length of multibyte character, instead rely on
2de962bdSlukem * continuation markers to find start of next character.
2de962bdSlukem * This allows for "resyncing" of when invalid characters
2de962bdSlukem * are provided provided the start of the next character
2de962bdSlukem * is appears within the 6 bytes examined.
2de962bdSlukem */
2de962bdSlukemchar* ldap_utf8_next( const char * p )
2de962bdSlukem{
2de962bdSlukem	int i;
2de962bdSlukem	const unsigned char *u = (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if( LDAP_UTF8_ISASCII(u) ) {
2de962bdSlukem		return (char *) &p[1];
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	for( i=1; i<6; i++ ) {
2de962bdSlukem		if ( ( u[i] & 0xc0 ) != 0x80 ) {
2de962bdSlukem			return (char *) &p[i];
2de962bdSlukem		}
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return (char *) &p[i];
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * Advance to the previous UTF-8 character
2de962bdSlukem *
2de962bdSlukem * Ignores length of multibyte character, instead rely on
2de962bdSlukem * continuation markers to find start of next character.
2de962bdSlukem * This allows for "resyncing" of when invalid characters
2de962bdSlukem * are provided provided the start of the next character
2de962bdSlukem * is appears within the 6 bytes examined.
2de962bdSlukem */
2de962bdSlukemchar* ldap_utf8_prev( const char * p )
2de962bdSlukem{
2de962bdSlukem	int i;
2de962bdSlukem	const unsigned char *u = (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	for( i=-1; i>-6 ; i-- ) {
2de962bdSlukem		if ( ( u[i] & 0xc0 ) != 0x80 ) {
2de962bdSlukem			return (char *) &p[i];
2de962bdSlukem		}
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return (char *) &p[i];
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * Copy one UTF-8 character from src to dst returning
2de962bdSlukem * number of bytes copied.
2de962bdSlukem *
2de962bdSlukem * Ignores length of multibyte character, instead rely on
2de962bdSlukem * continuation markers to find start of next character.
2de962bdSlukem * This allows for "resyncing" of when invalid characters
2de962bdSlukem * are provided provided the start of the next character
2de962bdSlukem * is appears within the 6 bytes examined.
2de962bdSlukem */
2de962bdSlukemint ldap_utf8_copy( char* dst, const char *src )
2de962bdSlukem{
2de962bdSlukem	int i;
2de962bdSlukem	const unsigned char *u = (const unsigned char *) src;
2de962bdSlukem
2de962bdSlukem	dst[0] = src[0];
2de962bdSlukem
2de962bdSlukem	if( LDAP_UTF8_ISASCII(u) ) {
2de962bdSlukem		return 1;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	for( i=1; i<6; i++ ) {
2de962bdSlukem		if ( ( u[i] & 0xc0 ) != 0x80 ) {
2de962bdSlukem			return i;
2de962bdSlukem		}
2de962bdSlukem		dst[i] = src[i];
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return i;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem#ifndef UTF8_ALPHA_CTYPE
2de962bdSlukem/*
2de962bdSlukem * UTF-8 ctype routines
2de962bdSlukem * Only deals with characters < 0x80 (ie: US-ASCII)
2de962bdSlukem */
2de962bdSlukem
2de962bdSlukemint ldap_utf8_isascii( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem	return LDAP_ASCII(c);
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukemint ldap_utf8_isdigit( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if(!LDAP_ASCII(c)) return 0;
2de962bdSlukem
2de962bdSlukem	return LDAP_DIGIT( c );
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukemint ldap_utf8_isxdigit( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if(!LDAP_ASCII(c)) return 0;
2de962bdSlukem
2de962bdSlukem	return LDAP_HEX(c);
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukemint ldap_utf8_isspace( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if(!LDAP_ASCII(c)) return 0;
2de962bdSlukem
2de962bdSlukem	switch(c) {
2de962bdSlukem	case ' ':
2de962bdSlukem	case '\t':
2de962bdSlukem	case '\n':
2de962bdSlukem	case '\r':
2de962bdSlukem	case '\v':
2de962bdSlukem	case '\f':
2de962bdSlukem		return 1;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return 0;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * These are not needed by the C SDK and are
2de962bdSlukem * not "good enough" for general use.
2de962bdSlukem */
2de962bdSlukemint ldap_utf8_isalpha( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if(!LDAP_ASCII(c)) return 0;
2de962bdSlukem
2de962bdSlukem	return LDAP_ALPHA(c);
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukemint ldap_utf8_isalnum( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if(!LDAP_ASCII(c)) return 0;
2de962bdSlukem
2de962bdSlukem	return LDAP_ALNUM(c);
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukemint ldap_utf8_islower( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if(!LDAP_ASCII(c)) return 0;
2de962bdSlukem
2de962bdSlukem	return LDAP_LOWER(c);
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukemint ldap_utf8_isupper( const char * p )
2de962bdSlukem{
2de962bdSlukem	unsigned c = * (const unsigned char *) p;
2de962bdSlukem
2de962bdSlukem	if(!LDAP_ASCII(c)) return 0;
2de962bdSlukem
2de962bdSlukem	return LDAP_UPPER(c);
2de962bdSlukem}
2de962bdSlukem#endif
2de962bdSlukem
2de962bdSlukem
2de962bdSlukem/*
2de962bdSlukem * UTF-8 string routines
2de962bdSlukem */
2de962bdSlukem
2de962bdSlukem/* like strchr() */
2de962bdSlukemchar * (ldap_utf8_strchr)( const char *str, const char *chr )
2de962bdSlukem{
2de962bdSlukem	for( ; *str != '\0'; LDAP_UTF8_INCR(str) ) {
2de962bdSlukem		if( ldap_x_utf8_to_ucs4( str ) == ldap_x_utf8_to_ucs4( chr ) ) {
2de962bdSlukem			return (char *) str;
2de962bdSlukem		}
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return NULL;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/* like strcspn() but returns number of bytes, not characters */
2de962bdSlukember_len_t (ldap_utf8_strcspn)( const char *str, const char *set )
2de962bdSlukem{
2de962bdSlukem	const char *cstr;
2de962bdSlukem	const char *cset;
2de962bdSlukem
2de962bdSlukem	for( cstr = str; *cstr != '\0'; LDAP_UTF8_INCR(cstr) ) {
2de962bdSlukem		for( cset = set; *cset != '\0'; LDAP_UTF8_INCR(cset) ) {
2de962bdSlukem			if( ldap_x_utf8_to_ucs4( cstr ) == ldap_x_utf8_to_ucs4( cset ) ) {
2de962bdSlukem				return cstr - str;
2de962bdSlukem			}
2de962bdSlukem		}
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return cstr - str;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/* like strspn() but returns number of bytes, not characters */
2de962bdSlukember_len_t (ldap_utf8_strspn)( const char *str, const char *set )
2de962bdSlukem{
2de962bdSlukem	const char *cstr;
2de962bdSlukem	const char *cset;
2de962bdSlukem
2de962bdSlukem	for( cstr = str; *cstr != '\0'; LDAP_UTF8_INCR(cstr) ) {
2de962bdSlukem		for( cset = set; ; LDAP_UTF8_INCR(cset) ) {
2de962bdSlukem			if( *cset == '\0' ) {
2de962bdSlukem				return cstr - str;
2de962bdSlukem			}
2de962bdSlukem
2de962bdSlukem			if( ldap_x_utf8_to_ucs4( cstr ) == ldap_x_utf8_to_ucs4( cset ) ) {
2de962bdSlukem				break;
2de962bdSlukem			}
2de962bdSlukem		}
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return cstr - str;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/* like strpbrk(), replaces strchr() as well */
2de962bdSlukemchar *(ldap_utf8_strpbrk)( const char *str, const char *set )
2de962bdSlukem{
2de962bdSlukem	for( ; *str != '\0'; LDAP_UTF8_INCR(str) ) {
2de962bdSlukem		const char *cset;
2de962bdSlukem
2de962bdSlukem		for( cset = set; *cset != '\0'; LDAP_UTF8_INCR(cset) ) {
2de962bdSlukem			if( ldap_x_utf8_to_ucs4( str ) == ldap_x_utf8_to_ucs4( cset ) ) {
2de962bdSlukem				return (char *) str;
2de962bdSlukem			}
2de962bdSlukem		}
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	return NULL;
2de962bdSlukem}
2de962bdSlukem
2de962bdSlukem/* like strtok_r(), not strtok() */
2de962bdSlukemchar *(ldap_utf8_strtok)(char *str, const char *sep, char **last)
2de962bdSlukem{
2de962bdSlukem	char *begin;
2de962bdSlukem	char *end;
2de962bdSlukem
2de962bdSlukem	if( last == NULL ) return NULL;
2de962bdSlukem
2de962bdSlukem	begin = str ? str : *last;
2de962bdSlukem
2de962bdSlukem	begin += ldap_utf8_strspn( begin, sep );
2de962bdSlukem
2de962bdSlukem	if( *begin == '\0' ) {
2de962bdSlukem		*last = NULL;
2de962bdSlukem		return NULL;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	end = &begin[ ldap_utf8_strcspn( begin, sep ) ];
2de962bdSlukem
2de962bdSlukem	if( *end != '\0' ) {
2de962bdSlukem		char *next = LDAP_UTF8_NEXT( end );
2de962bdSlukem		*end = '\0';
2de962bdSlukem		end = next;
2de962bdSlukem	}
2de962bdSlukem
2de962bdSlukem	*last = end;
2de962bdSlukem	return begin;
2de962bdSlukem}