xref: /minix3/external/bsd/bind/dist/contrib/idn/idnkit-1.0-src/lib/utf8.c (revision 00b67f09dd46474d133c95011a48590a8e8f94c7)
1*00b67f09SDavid van Moolenbroek /*	$NetBSD: utf8.c,v 1.4 2014/12/10 04:37:55 christos Exp $	*/
2*00b67f09SDavid van Moolenbroek 
3*00b67f09SDavid van Moolenbroek #ifndef lint
4*00b67f09SDavid van Moolenbroek static char *rcsid = "Id: utf8.c,v 1.1 2003/06/04 00:26:44 marka Exp ";
5*00b67f09SDavid van Moolenbroek #endif
6*00b67f09SDavid van Moolenbroek 
7*00b67f09SDavid van Moolenbroek /*
8*00b67f09SDavid van Moolenbroek  * Copyright (c) 2000 Japan Network Information Center.  All rights reserved.
9*00b67f09SDavid van Moolenbroek  *
10*00b67f09SDavid van Moolenbroek  * By using this file, you agree to the terms and conditions set forth bellow.
11*00b67f09SDavid van Moolenbroek  *
12*00b67f09SDavid van Moolenbroek  * 			LICENSE TERMS AND CONDITIONS
13*00b67f09SDavid van Moolenbroek  *
14*00b67f09SDavid van Moolenbroek  * The following License Terms and Conditions apply, unless a different
15*00b67f09SDavid van Moolenbroek  * license is obtained from Japan Network Information Center ("JPNIC"),
16*00b67f09SDavid van Moolenbroek  * a Japanese association, Kokusai-Kougyou-Kanda Bldg 6F, 2-3-4 Uchi-Kanda,
17*00b67f09SDavid van Moolenbroek  * Chiyoda-ku, Tokyo 101-0047, Japan.
18*00b67f09SDavid van Moolenbroek  *
19*00b67f09SDavid van Moolenbroek  * 1. Use, Modification and Redistribution (including distribution of any
20*00b67f09SDavid van Moolenbroek  *    modified or derived work) in source and/or binary forms is permitted
21*00b67f09SDavid van Moolenbroek  *    under this License Terms and Conditions.
22*00b67f09SDavid van Moolenbroek  *
23*00b67f09SDavid van Moolenbroek  * 2. Redistribution of source code must retain the copyright notices as they
24*00b67f09SDavid van Moolenbroek  *    appear in each source code file, this License Terms and Conditions.
25*00b67f09SDavid van Moolenbroek  *
26*00b67f09SDavid van Moolenbroek  * 3. Redistribution in binary form must reproduce the Copyright Notice,
27*00b67f09SDavid van Moolenbroek  *    this License Terms and Conditions, in the documentation and/or other
28*00b67f09SDavid van Moolenbroek  *    materials provided with the distribution.  For the purposes of binary
29*00b67f09SDavid van Moolenbroek  *    distribution the "Copyright Notice" refers to the following language:
30*00b67f09SDavid van Moolenbroek  *    "Copyright (c) 2000-2002 Japan Network Information Center.  All rights reserved."
31*00b67f09SDavid van Moolenbroek  *
32*00b67f09SDavid van Moolenbroek  * 4. The name of JPNIC may not be used to endorse or promote products
33*00b67f09SDavid van Moolenbroek  *    derived from this Software without specific prior written approval of
34*00b67f09SDavid van Moolenbroek  *    JPNIC.
35*00b67f09SDavid van Moolenbroek  *
36*00b67f09SDavid van Moolenbroek  * 5. Disclaimer/Limitation of Liability: THIS SOFTWARE IS PROVIDED BY JPNIC
37*00b67f09SDavid van Moolenbroek  *    "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
38*00b67f09SDavid van Moolenbroek  *    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A
39*00b67f09SDavid van Moolenbroek  *    PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL JPNIC BE LIABLE
40*00b67f09SDavid van Moolenbroek  *    FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
41*00b67f09SDavid van Moolenbroek  *    CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
42*00b67f09SDavid van Moolenbroek  *    SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR
43*00b67f09SDavid van Moolenbroek  *    BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY,
44*00b67f09SDavid van Moolenbroek  *    WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR
45*00b67f09SDavid van Moolenbroek  *    OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
46*00b67f09SDavid van Moolenbroek  *    ADVISED OF THE POSSIBILITY OF SUCH DAMAGES.
47*00b67f09SDavid van Moolenbroek  */
48*00b67f09SDavid van Moolenbroek 
49*00b67f09SDavid van Moolenbroek #include <config.h>
50*00b67f09SDavid van Moolenbroek 
51*00b67f09SDavid van Moolenbroek #include <stddef.h>
52*00b67f09SDavid van Moolenbroek 
53*00b67f09SDavid van Moolenbroek #include <idn/assert.h>
54*00b67f09SDavid van Moolenbroek #include <idn/logmacro.h>
55*00b67f09SDavid van Moolenbroek #include <idn/utf8.h>
56*00b67f09SDavid van Moolenbroek #include <idn/debug.h>
57*00b67f09SDavid van Moolenbroek 
58*00b67f09SDavid van Moolenbroek #define UTF8_WIDTH(c) \
59*00b67f09SDavid van Moolenbroek 	(((c) < 0x80) ? 1 : \
60*00b67f09SDavid van Moolenbroek 	 ((c) < 0xc0) ? 0 : \
61*00b67f09SDavid van Moolenbroek 	 ((c) < 0xe0) ? 2 : \
62*00b67f09SDavid van Moolenbroek 	 ((c) < 0xf0) ? 3 : \
63*00b67f09SDavid van Moolenbroek 	 ((c) < 0xf8) ? 4 : \
64*00b67f09SDavid van Moolenbroek 	 ((c) < 0xfc) ? 5 : \
65*00b67f09SDavid van Moolenbroek 	 ((c) < 0xfe) ? 6 : 0)
66*00b67f09SDavid van Moolenbroek 
67*00b67f09SDavid van Moolenbroek #define VALID_CONT_BYTE(c)	(0x80 <= (c) && (c) < 0xc0)
68*00b67f09SDavid van Moolenbroek 
69*00b67f09SDavid van Moolenbroek int
idn_utf8_mblen(const char * s)70*00b67f09SDavid van Moolenbroek idn_utf8_mblen(const char *s) {
71*00b67f09SDavid van Moolenbroek 	int c = *(unsigned char *)s;
72*00b67f09SDavid van Moolenbroek 
73*00b67f09SDavid van Moolenbroek 	assert(s != NULL);
74*00b67f09SDavid van Moolenbroek 
75*00b67f09SDavid van Moolenbroek #if 0
76*00b67f09SDavid van Moolenbroek 	TRACE(("idn_utf8_mblen(s=<%s>)\n", idn__debug_hexstring(s, 6)));
77*00b67f09SDavid van Moolenbroek #endif
78*00b67f09SDavid van Moolenbroek 
79*00b67f09SDavid van Moolenbroek 	return UTF8_WIDTH(c);
80*00b67f09SDavid van Moolenbroek }
81*00b67f09SDavid van Moolenbroek 
82*00b67f09SDavid van Moolenbroek int
idn_utf8_getmb(const char * s,size_t len,char * buf)83*00b67f09SDavid van Moolenbroek idn_utf8_getmb(const char *s, size_t len, char *buf) {
84*00b67f09SDavid van Moolenbroek 	/* buf must be at least 7-bytes long */
85*00b67f09SDavid van Moolenbroek 	const unsigned char *p = (const unsigned char *)s;
86*00b67f09SDavid van Moolenbroek 	unsigned char *q = (unsigned char *)buf;
87*00b67f09SDavid van Moolenbroek 	int width = UTF8_WIDTH(*p);
88*00b67f09SDavid van Moolenbroek 	int w;
89*00b67f09SDavid van Moolenbroek 
90*00b67f09SDavid van Moolenbroek 	assert(s != NULL);
91*00b67f09SDavid van Moolenbroek 
92*00b67f09SDavid van Moolenbroek #if 0
93*00b67f09SDavid van Moolenbroek 	TRACE(("idn_utf8_getmb(s=<%s>,len=%d)\n",
94*00b67f09SDavid van Moolenbroek 	      idn__debug_hexstring(s, 6), len));
95*00b67f09SDavid van Moolenbroek #endif
96*00b67f09SDavid van Moolenbroek 
97*00b67f09SDavid van Moolenbroek 	if (width == 0 || len < width)
98*00b67f09SDavid van Moolenbroek 		return (0);
99*00b67f09SDavid van Moolenbroek 
100*00b67f09SDavid van Moolenbroek 	/* Copy the first byte. */
101*00b67f09SDavid van Moolenbroek 	*q++ = *p++;
102*00b67f09SDavid van Moolenbroek 
103*00b67f09SDavid van Moolenbroek 	/* .. and the rest. */
104*00b67f09SDavid van Moolenbroek 	w = width;
105*00b67f09SDavid van Moolenbroek 	while (--w > 0) {
106*00b67f09SDavid van Moolenbroek 		if (!VALID_CONT_BYTE(*p))
107*00b67f09SDavid van Moolenbroek 			return (0);
108*00b67f09SDavid van Moolenbroek 		*q++ = *p++;
109*00b67f09SDavid van Moolenbroek 	}
110*00b67f09SDavid van Moolenbroek 	return (width);
111*00b67f09SDavid van Moolenbroek }
112*00b67f09SDavid van Moolenbroek 
113*00b67f09SDavid van Moolenbroek int
idn_utf8_getwc(const char * s,size_t len,unsigned long * vp)114*00b67f09SDavid van Moolenbroek idn_utf8_getwc(const char *s, size_t len, unsigned long *vp) {
115*00b67f09SDavid van Moolenbroek 	unsigned long v;
116*00b67f09SDavid van Moolenbroek 	unsigned long min;
117*00b67f09SDavid van Moolenbroek 	const unsigned char *p = (const unsigned char *)s;
118*00b67f09SDavid van Moolenbroek 	int c;
119*00b67f09SDavid van Moolenbroek 	int width;
120*00b67f09SDavid van Moolenbroek 	int rest;
121*00b67f09SDavid van Moolenbroek 
122*00b67f09SDavid van Moolenbroek 	assert(s != NULL);
123*00b67f09SDavid van Moolenbroek 
124*00b67f09SDavid van Moolenbroek #if 0
125*00b67f09SDavid van Moolenbroek 	TRACE(("idn_utf8_getwc(s=<%s>,len=%d)\n",
126*00b67f09SDavid van Moolenbroek 	      idn__debug_hexstring(s, 10), len));
127*00b67f09SDavid van Moolenbroek #endif
128*00b67f09SDavid van Moolenbroek 
129*00b67f09SDavid van Moolenbroek 	c = *p++;
130*00b67f09SDavid van Moolenbroek 	width = UTF8_WIDTH(c);
131*00b67f09SDavid van Moolenbroek 
132*00b67f09SDavid van Moolenbroek 	switch (width) {
133*00b67f09SDavid van Moolenbroek 	case 0:
134*00b67f09SDavid van Moolenbroek 		return (0);
135*00b67f09SDavid van Moolenbroek 	case 1:
136*00b67f09SDavid van Moolenbroek 		v = c;
137*00b67f09SDavid van Moolenbroek 		min = 0;
138*00b67f09SDavid van Moolenbroek 		break;
139*00b67f09SDavid van Moolenbroek 	case 2:
140*00b67f09SDavid van Moolenbroek 		v = c & 0x1f;
141*00b67f09SDavid van Moolenbroek 		min = 0x80;
142*00b67f09SDavid van Moolenbroek 		break;
143*00b67f09SDavid van Moolenbroek 	case 3:
144*00b67f09SDavid van Moolenbroek 		v = c & 0xf;
145*00b67f09SDavid van Moolenbroek 		min = 0x800;
146*00b67f09SDavid van Moolenbroek 		break;
147*00b67f09SDavid van Moolenbroek 	case 4:
148*00b67f09SDavid van Moolenbroek 		v = c & 0x7;
149*00b67f09SDavid van Moolenbroek 		min = 0x10000;
150*00b67f09SDavid van Moolenbroek 		break;
151*00b67f09SDavid van Moolenbroek 	case 5:
152*00b67f09SDavid van Moolenbroek 		v = c & 3;
153*00b67f09SDavid van Moolenbroek 		min = 0x200000;
154*00b67f09SDavid van Moolenbroek 		break;
155*00b67f09SDavid van Moolenbroek 	case 6:
156*00b67f09SDavid van Moolenbroek 		v = c & 1;
157*00b67f09SDavid van Moolenbroek 		min = 0x4000000;
158*00b67f09SDavid van Moolenbroek 		break;
159*00b67f09SDavid van Moolenbroek 	default:
160*00b67f09SDavid van Moolenbroek 		FATAL(("idn_utf8_getint: internal error\n"));
161*00b67f09SDavid van Moolenbroek 		return (0);
162*00b67f09SDavid van Moolenbroek 	}
163*00b67f09SDavid van Moolenbroek 
164*00b67f09SDavid van Moolenbroek 	if (len < width)
165*00b67f09SDavid van Moolenbroek 		return (0);
166*00b67f09SDavid van Moolenbroek 
167*00b67f09SDavid van Moolenbroek 	rest = width - 1;
168*00b67f09SDavid van Moolenbroek 	while (rest-- > 0) {
169*00b67f09SDavid van Moolenbroek 		if (!VALID_CONT_BYTE(*p))
170*00b67f09SDavid van Moolenbroek 			return (0);
171*00b67f09SDavid van Moolenbroek 		v = (v << 6) | (*p & 0x3f);
172*00b67f09SDavid van Moolenbroek 		p++;
173*00b67f09SDavid van Moolenbroek 	}
174*00b67f09SDavid van Moolenbroek 
175*00b67f09SDavid van Moolenbroek 	if (v < min)
176*00b67f09SDavid van Moolenbroek 		return (0);
177*00b67f09SDavid van Moolenbroek 
178*00b67f09SDavid van Moolenbroek 	*vp = v;
179*00b67f09SDavid van Moolenbroek 	return (width);
180*00b67f09SDavid van Moolenbroek }
181*00b67f09SDavid van Moolenbroek 
182*00b67f09SDavid van Moolenbroek int
idn_utf8_putwc(char * s,size_t len,unsigned long v)183*00b67f09SDavid van Moolenbroek idn_utf8_putwc(char *s, size_t len, unsigned long v) {
184*00b67f09SDavid van Moolenbroek 	unsigned char *p = (unsigned char *)s;
185*00b67f09SDavid van Moolenbroek 	int mask;
186*00b67f09SDavid van Moolenbroek 	int off;
187*00b67f09SDavid van Moolenbroek 	int l;
188*00b67f09SDavid van Moolenbroek 
189*00b67f09SDavid van Moolenbroek 	assert(s != NULL);
190*00b67f09SDavid van Moolenbroek 
191*00b67f09SDavid van Moolenbroek #if 0
192*00b67f09SDavid van Moolenbroek 	TRACE(("idn_utf8_putwc(v=%lx)\n", v));
193*00b67f09SDavid van Moolenbroek #endif
194*00b67f09SDavid van Moolenbroek 
195*00b67f09SDavid van Moolenbroek 	if (v < 0x80) {
196*00b67f09SDavid van Moolenbroek 		mask = 0;
197*00b67f09SDavid van Moolenbroek 		l = 1;
198*00b67f09SDavid van Moolenbroek 	} else if (v < 0x800) {
199*00b67f09SDavid van Moolenbroek 		mask = 0xc0;
200*00b67f09SDavid van Moolenbroek 		l = 2;
201*00b67f09SDavid van Moolenbroek 	} else if (v < 0x10000) {
202*00b67f09SDavid van Moolenbroek 		mask = 0xe0;
203*00b67f09SDavid van Moolenbroek 		l = 3;
204*00b67f09SDavid van Moolenbroek 	} else if (v < 0x200000) {
205*00b67f09SDavid van Moolenbroek 		mask = 0xf0;
206*00b67f09SDavid van Moolenbroek 		l = 4;
207*00b67f09SDavid van Moolenbroek 	} else if (v < 0x4000000) {
208*00b67f09SDavid van Moolenbroek 		mask = 0xf8;
209*00b67f09SDavid van Moolenbroek 		l = 5;
210*00b67f09SDavid van Moolenbroek 	} else if (v < 0x80000000) {
211*00b67f09SDavid van Moolenbroek 		mask = 0xfc;
212*00b67f09SDavid van Moolenbroek 		l = 6;
213*00b67f09SDavid van Moolenbroek 	} else {
214*00b67f09SDavid van Moolenbroek 		return (0);
215*00b67f09SDavid van Moolenbroek 	}
216*00b67f09SDavid van Moolenbroek 
217*00b67f09SDavid van Moolenbroek 	if (len < l)
218*00b67f09SDavid van Moolenbroek 		return (0);
219*00b67f09SDavid van Moolenbroek 
220*00b67f09SDavid van Moolenbroek 	off = 6 * (l - 1);
221*00b67f09SDavid van Moolenbroek 	*p++ = (v >> off) | mask;
222*00b67f09SDavid van Moolenbroek 	mask = 0x80;
223*00b67f09SDavid van Moolenbroek 	while (off > 0) {
224*00b67f09SDavid van Moolenbroek 		off -= 6;
225*00b67f09SDavid van Moolenbroek 		*p++ = ((v >> off) & 0x3f) | mask;
226*00b67f09SDavid van Moolenbroek 	}
227*00b67f09SDavid van Moolenbroek 	return l;
228*00b67f09SDavid van Moolenbroek }
229*00b67f09SDavid van Moolenbroek 
230*00b67f09SDavid van Moolenbroek int
idn_utf8_isvalidchar(const char * s)231*00b67f09SDavid van Moolenbroek idn_utf8_isvalidchar(const char *s) {
232*00b67f09SDavid van Moolenbroek 	unsigned long dummy;
233*00b67f09SDavid van Moolenbroek 
234*00b67f09SDavid van Moolenbroek 	TRACE(("idn_utf8_isvalidchar(s=<%s>)\n",
235*00b67f09SDavid van Moolenbroek 	      idn__debug_hexstring(s, 6)));
236*00b67f09SDavid van Moolenbroek 
237*00b67f09SDavid van Moolenbroek 	return (idn_utf8_getwc(s, 6, &dummy) > 0);
238*00b67f09SDavid van Moolenbroek }
239*00b67f09SDavid van Moolenbroek 
240*00b67f09SDavid van Moolenbroek int
idn_utf8_isvalidstring(const char * s)241*00b67f09SDavid van Moolenbroek idn_utf8_isvalidstring(const char *s) {
242*00b67f09SDavid van Moolenbroek 	unsigned long dummy;
243*00b67f09SDavid van Moolenbroek 	int width;
244*00b67f09SDavid van Moolenbroek 
245*00b67f09SDavid van Moolenbroek 	assert(s != NULL);
246*00b67f09SDavid van Moolenbroek 
247*00b67f09SDavid van Moolenbroek 	TRACE(("idn_utf8_isvalidstring(s=<%s>)\n",
248*00b67f09SDavid van Moolenbroek 	      idn__debug_hexstring(s, 20)));
249*00b67f09SDavid van Moolenbroek 
250*00b67f09SDavid van Moolenbroek 	while (*s != '\0') {
251*00b67f09SDavid van Moolenbroek 		width = idn_utf8_getwc(s, 6, &dummy);
252*00b67f09SDavid van Moolenbroek 		if (width == 0)
253*00b67f09SDavid van Moolenbroek 			return (0);
254*00b67f09SDavid van Moolenbroek 		s += width;
255*00b67f09SDavid van Moolenbroek 	}
256*00b67f09SDavid van Moolenbroek 	return (1);
257*00b67f09SDavid van Moolenbroek }
258*00b67f09SDavid van Moolenbroek 
259*00b67f09SDavid van Moolenbroek char *
idn_utf8_findfirstbyte(const char * s,const char * known_top)260*00b67f09SDavid van Moolenbroek idn_utf8_findfirstbyte(const char *s, const char *known_top) {
261*00b67f09SDavid van Moolenbroek 	const unsigned char *p = (const unsigned char *)s;
262*00b67f09SDavid van Moolenbroek 	const unsigned char *t = (const unsigned char *)known_top;
263*00b67f09SDavid van Moolenbroek 
264*00b67f09SDavid van Moolenbroek 	assert(s != NULL && known_top != NULL && known_top <= s);
265*00b67f09SDavid van Moolenbroek 
266*00b67f09SDavid van Moolenbroek 	TRACE(("idn_utf8_findfirstbyte(s=<%s>)\n",
267*00b67f09SDavid van Moolenbroek 	      idn__debug_hexstring(s, 8)));
268*00b67f09SDavid van Moolenbroek 
269*00b67f09SDavid van Moolenbroek 	while (p >= t) {
270*00b67f09SDavid van Moolenbroek 		if (!VALID_CONT_BYTE(*p))
271*00b67f09SDavid van Moolenbroek 		    break;
272*00b67f09SDavid van Moolenbroek 		p--;
273*00b67f09SDavid van Moolenbroek 	}
274*00b67f09SDavid van Moolenbroek 	if (p < t || UTF8_WIDTH(*p) == 0)
275*00b67f09SDavid van Moolenbroek 		return (NULL);
276*00b67f09SDavid van Moolenbroek 
277*00b67f09SDavid van Moolenbroek 	return ((char *)p);
278*00b67f09SDavid van Moolenbroek }
279