xref: /minix3/external/bsd/bind/dist/contrib/idn/idnkit-1.0-src/lib/ucs4.c (revision 00b67f09dd46474d133c95011a48590a8e8f94c7)
1*00b67f09SDavid van Moolenbroek /*	$NetBSD: ucs4.c,v 1.4 2014/12/10 04:37:55 christos Exp $	*/
2*00b67f09SDavid van Moolenbroek 
3*00b67f09SDavid van Moolenbroek #ifndef lint
4*00b67f09SDavid van Moolenbroek static char *rcsid = "Id: ucs4.c,v 1.1 2003/06/04 00:26:14 marka Exp ";
5*00b67f09SDavid van Moolenbroek #endif
6*00b67f09SDavid van Moolenbroek 
7*00b67f09SDavid van Moolenbroek /*
8*00b67f09SDavid van Moolenbroek  * Copyright (c) 2001 Japan Network Information Center.  All rights reserved.
9*00b67f09SDavid van Moolenbroek  *
10*00b67f09SDavid van Moolenbroek  * By using this file, you agree to the terms and conditions set forth bellow.
11*00b67f09SDavid van Moolenbroek  *
12*00b67f09SDavid van Moolenbroek  * 			LICENSE TERMS AND CONDITIONS
13*00b67f09SDavid van Moolenbroek  *
14*00b67f09SDavid van Moolenbroek  * The following License Terms and Conditions apply, unless a different
15*00b67f09SDavid van Moolenbroek  * license is obtained from Japan Network Information Center ("JPNIC"),
16*00b67f09SDavid van Moolenbroek  * a Japanese association, Kokusai-Kougyou-Kanda Bldg 6F, 2-3-4 Uchi-Kanda,
17*00b67f09SDavid van Moolenbroek  * Chiyoda-ku, Tokyo 101-0047, Japan.
18*00b67f09SDavid van Moolenbroek  *
19*00b67f09SDavid van Moolenbroek  * 1. Use, Modification and Redistribution (including distribution of any
20*00b67f09SDavid van Moolenbroek  *    modified or derived work) in source and/or binary forms is permitted
21*00b67f09SDavid van Moolenbroek  *    under this License Terms and Conditions.
22*00b67f09SDavid van Moolenbroek  *
23*00b67f09SDavid van Moolenbroek  * 2. Redistribution of source code must retain the copyright notices as they
24*00b67f09SDavid van Moolenbroek  *    appear in each source code file, this License Terms and Conditions.
25*00b67f09SDavid van Moolenbroek  *
26*00b67f09SDavid van Moolenbroek  * 3. Redistribution in binary form must reproduce the Copyright Notice,
27*00b67f09SDavid van Moolenbroek  *    this License Terms and Conditions, in the documentation and/or other
28*00b67f09SDavid van Moolenbroek  *    materials provided with the distribution.  For the purposes of binary
29*00b67f09SDavid van Moolenbroek  *    distribution the "Copyright Notice" refers to the following language:
30*00b67f09SDavid van Moolenbroek  *    "Copyright (c) 2000-2002 Japan Network Information Center.  All rights reserved."
31*00b67f09SDavid van Moolenbroek  *
32*00b67f09SDavid van Moolenbroek  * 4. The name of JPNIC may not be used to endorse or promote products
33*00b67f09SDavid van Moolenbroek  *    derived from this Software without specific prior written approval of
34*00b67f09SDavid van Moolenbroek  *    JPNIC.
35*00b67f09SDavid van Moolenbroek  *
36*00b67f09SDavid van Moolenbroek  * 5. Disclaimer/Limitation of Liability: THIS SOFTWARE IS PROVIDED BY JPNIC
37*00b67f09SDavid van Moolenbroek  *    "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
38*00b67f09SDavid van Moolenbroek  *    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A
39*00b67f09SDavid van Moolenbroek  *    PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL JPNIC BE LIABLE
40*00b67f09SDavid van Moolenbroek  *    FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
41*00b67f09SDavid van Moolenbroek  *    CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
42*00b67f09SDavid van Moolenbroek  *    SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR
43*00b67f09SDavid van Moolenbroek  *    BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY,
44*00b67f09SDavid van Moolenbroek  *    WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR
45*00b67f09SDavid van Moolenbroek  *    OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
46*00b67f09SDavid van Moolenbroek  *    ADVISED OF THE POSSIBILITY OF SUCH DAMAGES.
47*00b67f09SDavid van Moolenbroek  */
48*00b67f09SDavid van Moolenbroek 
49*00b67f09SDavid van Moolenbroek #include <config.h>
50*00b67f09SDavid van Moolenbroek 
51*00b67f09SDavid van Moolenbroek #include <stddef.h>
52*00b67f09SDavid van Moolenbroek #include <stdlib.h>
53*00b67f09SDavid van Moolenbroek #include <string.h>
54*00b67f09SDavid van Moolenbroek 
55*00b67f09SDavid van Moolenbroek #include <idn/assert.h>
56*00b67f09SDavid van Moolenbroek #include <idn/result.h>
57*00b67f09SDavid van Moolenbroek #include <idn/logmacro.h>
58*00b67f09SDavid van Moolenbroek #include <idn/util.h>
59*00b67f09SDavid van Moolenbroek #include <idn/ucs4.h>
60*00b67f09SDavid van Moolenbroek #include <idn/debug.h>
61*00b67f09SDavid van Moolenbroek 
62*00b67f09SDavid van Moolenbroek /*
63*00b67f09SDavid van Moolenbroek  * Unicode surrogate pair.
64*00b67f09SDavid van Moolenbroek  */
65*00b67f09SDavid van Moolenbroek #define IS_SURROGATE_HIGH(v)	(0xd800 <= (v) && (v) <= 0xdbff)
66*00b67f09SDavid van Moolenbroek #define IS_SURROGATE_LOW(v)	(0xdc00 <= (v) && (v) <= 0xdfff)
67*00b67f09SDavid van Moolenbroek #define SURROGATE_HIGH(v)	(SURROGATE_H_OFF + (((v) - 0x10000) >> 10))
68*00b67f09SDavid van Moolenbroek #define SURROGATE_LOW(v)	(SURROGATE_L_OFF + ((v) & 0x3ff))
69*00b67f09SDavid van Moolenbroek #define SURROGATE_BASE		0x10000
70*00b67f09SDavid van Moolenbroek #define SURROGATE_H_OFF		0xd800
71*00b67f09SDavid van Moolenbroek #define SURROGATE_L_OFF		0xdc00
72*00b67f09SDavid van Moolenbroek #define COMBINE_SURROGATE(h, l) \
73*00b67f09SDavid van Moolenbroek 	(SURROGATE_BASE + (((h)-SURROGATE_H_OFF)<<10) + ((l)-SURROGATE_L_OFF))
74*00b67f09SDavid van Moolenbroek 
75*00b67f09SDavid van Moolenbroek /*
76*00b67f09SDavid van Moolenbroek  * ASCII ctype macros.
77*00b67f09SDavid van Moolenbroek  * Note that these macros evaluate the argument multiple times.  Be careful.
78*00b67f09SDavid van Moolenbroek  */
79*00b67f09SDavid van Moolenbroek #define ASCII_TOUPPER(c) \
80*00b67f09SDavid van Moolenbroek 	(('a' <= (c) && (c) <= 'z') ? ((c) - 'a' + 'A') : (c))
81*00b67f09SDavid van Moolenbroek #define ASCII_TOLOWER(c) \
82*00b67f09SDavid van Moolenbroek 	(('A' <= (c) && (c) <= 'Z') ? ((c) - 'A' + 'a') : (c))
83*00b67f09SDavid van Moolenbroek 
84*00b67f09SDavid van Moolenbroek idn_result_t
idn_ucs4_ucs4toutf16(const unsigned long * ucs4,unsigned short * utf16,size_t tolen)85*00b67f09SDavid van Moolenbroek idn_ucs4_ucs4toutf16(const unsigned long *ucs4, unsigned short *utf16,
86*00b67f09SDavid van Moolenbroek 		     size_t tolen) {
87*00b67f09SDavid van Moolenbroek 	unsigned short *utf16p = utf16;
88*00b67f09SDavid van Moolenbroek 	unsigned long v;
89*00b67f09SDavid van Moolenbroek 	idn_result_t r;
90*00b67f09SDavid van Moolenbroek 
91*00b67f09SDavid van Moolenbroek 	TRACE(("idn_ucs4_ucs4toutf16(ucs4=\"%s\", tolen=%d)\n",
92*00b67f09SDavid van Moolenbroek 	       idn__debug_ucs4xstring(ucs4, 50), (int)tolen));
93*00b67f09SDavid van Moolenbroek 
94*00b67f09SDavid van Moolenbroek 	while (*ucs4 != '\0') {
95*00b67f09SDavid van Moolenbroek 		v = *ucs4++;
96*00b67f09SDavid van Moolenbroek 
97*00b67f09SDavid van Moolenbroek 		if (IS_SURROGATE_LOW(v) || IS_SURROGATE_HIGH(v)) {
98*00b67f09SDavid van Moolenbroek 			WARNING(("idn_ucs4_ucs4toutf16: UCS4 string contains "
99*00b67f09SDavid van Moolenbroek 				 "surrogate pair\n"));
100*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
101*00b67f09SDavid van Moolenbroek 			goto ret;
102*00b67f09SDavid van Moolenbroek 		} else if (v > 0xffff) {
103*00b67f09SDavid van Moolenbroek 			/* Convert to surrogate pair */
104*00b67f09SDavid van Moolenbroek 			if (v >= 0x110000) {
105*00b67f09SDavid van Moolenbroek 				r = idn_invalid_encoding;
106*00b67f09SDavid van Moolenbroek 				goto ret;
107*00b67f09SDavid van Moolenbroek 			}
108*00b67f09SDavid van Moolenbroek 			if (tolen < 2) {
109*00b67f09SDavid van Moolenbroek 				r = idn_buffer_overflow;
110*00b67f09SDavid van Moolenbroek 				goto ret;
111*00b67f09SDavid van Moolenbroek 			}
112*00b67f09SDavid van Moolenbroek 			*utf16p++ = SURROGATE_HIGH(v);
113*00b67f09SDavid van Moolenbroek 			*utf16p++ = SURROGATE_LOW(v);
114*00b67f09SDavid van Moolenbroek 			tolen -= 2;
115*00b67f09SDavid van Moolenbroek 		} else {
116*00b67f09SDavid van Moolenbroek 			if (tolen < 1) {
117*00b67f09SDavid van Moolenbroek 				r = idn_buffer_overflow;
118*00b67f09SDavid van Moolenbroek 				goto ret;
119*00b67f09SDavid van Moolenbroek 			}
120*00b67f09SDavid van Moolenbroek 			*utf16p++ = v;
121*00b67f09SDavid van Moolenbroek 			tolen--;
122*00b67f09SDavid van Moolenbroek 		}
123*00b67f09SDavid van Moolenbroek 	}
124*00b67f09SDavid van Moolenbroek 
125*00b67f09SDavid van Moolenbroek 	if (tolen < 1) {
126*00b67f09SDavid van Moolenbroek 		r = idn_buffer_overflow;
127*00b67f09SDavid van Moolenbroek 		goto ret;
128*00b67f09SDavid van Moolenbroek 	}
129*00b67f09SDavid van Moolenbroek 	*utf16p = '\0';
130*00b67f09SDavid van Moolenbroek 
131*00b67f09SDavid van Moolenbroek 	r = idn_success;
132*00b67f09SDavid van Moolenbroek ret:
133*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
134*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_ucs4toutf16(): success (utf16=\"%s\")\n",
135*00b67f09SDavid van Moolenbroek 		       idn__debug_utf16xstring(utf16, 50)));
136*00b67f09SDavid van Moolenbroek 	} else {
137*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_ucs4toutf16(): %s\n",
138*00b67f09SDavid van Moolenbroek 		       idn_result_tostring(r)));
139*00b67f09SDavid van Moolenbroek 	}
140*00b67f09SDavid van Moolenbroek 	return (r);
141*00b67f09SDavid van Moolenbroek }
142*00b67f09SDavid van Moolenbroek 
143*00b67f09SDavid van Moolenbroek idn_result_t
idn_ucs4_utf16toucs4(const unsigned short * utf16,unsigned long * ucs4,size_t tolen)144*00b67f09SDavid van Moolenbroek idn_ucs4_utf16toucs4(const unsigned short *utf16, unsigned long *ucs4,
145*00b67f09SDavid van Moolenbroek 		     size_t tolen) {
146*00b67f09SDavid van Moolenbroek 	unsigned long *ucs4p = ucs4;
147*00b67f09SDavid van Moolenbroek 	unsigned short v0, v1;
148*00b67f09SDavid van Moolenbroek 	idn_result_t r;
149*00b67f09SDavid van Moolenbroek 
150*00b67f09SDavid van Moolenbroek 	TRACE(("idn_ucs4_utf16toucs4(utf16=\"%s\", tolen=%d)\n",
151*00b67f09SDavid van Moolenbroek 	       idn__debug_utf16xstring(utf16, 50), (int)tolen));
152*00b67f09SDavid van Moolenbroek 
153*00b67f09SDavid van Moolenbroek 	while (*utf16 != '\0') {
154*00b67f09SDavid van Moolenbroek 		v0 = *utf16;
155*00b67f09SDavid van Moolenbroek 
156*00b67f09SDavid van Moolenbroek 		if (tolen < 1) {
157*00b67f09SDavid van Moolenbroek 			r = idn_buffer_overflow;
158*00b67f09SDavid van Moolenbroek 			goto ret;
159*00b67f09SDavid van Moolenbroek 		}
160*00b67f09SDavid van Moolenbroek 
161*00b67f09SDavid van Moolenbroek 		if (IS_SURROGATE_HIGH(v0)) {
162*00b67f09SDavid van Moolenbroek 			v1 = *(utf16 + 1);
163*00b67f09SDavid van Moolenbroek 			if (!IS_SURROGATE_LOW(v1)) {
164*00b67f09SDavid van Moolenbroek 				WARNING(("idn_ucs4_utf16toucs4: "
165*00b67f09SDavid van Moolenbroek 					 "corrupted surrogate pair\n"));
166*00b67f09SDavid van Moolenbroek 				r = idn_invalid_encoding;
167*00b67f09SDavid van Moolenbroek 				goto ret;
168*00b67f09SDavid van Moolenbroek 			}
169*00b67f09SDavid van Moolenbroek 			*ucs4p++ = COMBINE_SURROGATE(v0, v1);
170*00b67f09SDavid van Moolenbroek 			tolen--;
171*00b67f09SDavid van Moolenbroek 			utf16 += 2;
172*00b67f09SDavid van Moolenbroek 
173*00b67f09SDavid van Moolenbroek 		} else {
174*00b67f09SDavid van Moolenbroek 			*ucs4p++ = v0;
175*00b67f09SDavid van Moolenbroek 			tolen--;
176*00b67f09SDavid van Moolenbroek 			utf16++;
177*00b67f09SDavid van Moolenbroek 
178*00b67f09SDavid van Moolenbroek 		}
179*00b67f09SDavid van Moolenbroek 	}
180*00b67f09SDavid van Moolenbroek 
181*00b67f09SDavid van Moolenbroek 	if (tolen < 1) {
182*00b67f09SDavid van Moolenbroek 		r = idn_buffer_overflow;
183*00b67f09SDavid van Moolenbroek 		goto ret;
184*00b67f09SDavid van Moolenbroek 	}
185*00b67f09SDavid van Moolenbroek 	*ucs4p = '\0';
186*00b67f09SDavid van Moolenbroek 
187*00b67f09SDavid van Moolenbroek 	r = idn_success;
188*00b67f09SDavid van Moolenbroek ret:
189*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
190*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_utf16toucs4(): success (ucs4=\"%s\")\n",
191*00b67f09SDavid van Moolenbroek 		       idn__debug_ucs4xstring(ucs4, 50)));
192*00b67f09SDavid van Moolenbroek 	} else {
193*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_utf16toucs4(): %s\n",
194*00b67f09SDavid van Moolenbroek 		       idn_result_tostring(r)));
195*00b67f09SDavid van Moolenbroek 	}
196*00b67f09SDavid van Moolenbroek 	return (r);
197*00b67f09SDavid van Moolenbroek }
198*00b67f09SDavid van Moolenbroek 
199*00b67f09SDavid van Moolenbroek idn_result_t
idn_ucs4_utf8toucs4(const char * utf8,unsigned long * ucs4,size_t tolen)200*00b67f09SDavid van Moolenbroek idn_ucs4_utf8toucs4(const char *utf8, unsigned long *ucs4, size_t tolen) {
201*00b67f09SDavid van Moolenbroek 	const unsigned char *utf8p = (const unsigned char *)utf8;
202*00b67f09SDavid van Moolenbroek 	unsigned long *ucs4p = ucs4;
203*00b67f09SDavid van Moolenbroek 	unsigned long v, min;
204*00b67f09SDavid van Moolenbroek 	unsigned char c;
205*00b67f09SDavid van Moolenbroek 	int width;
206*00b67f09SDavid van Moolenbroek 	int i;
207*00b67f09SDavid van Moolenbroek 	idn_result_t r;
208*00b67f09SDavid van Moolenbroek 
209*00b67f09SDavid van Moolenbroek 	TRACE(("idn_ucs4_utf8toucs4(utf8=\"%s\", tolen=%d)\n",
210*00b67f09SDavid van Moolenbroek 	       idn__debug_xstring(utf8, 50), (int)tolen));
211*00b67f09SDavid van Moolenbroek 
212*00b67f09SDavid van Moolenbroek 	while(*utf8p != '\0') {
213*00b67f09SDavid van Moolenbroek 		c = *utf8p++;
214*00b67f09SDavid van Moolenbroek 		if (c < 0x80) {
215*00b67f09SDavid van Moolenbroek 			v = c;
216*00b67f09SDavid van Moolenbroek 			min = 0;
217*00b67f09SDavid van Moolenbroek 			width = 1;
218*00b67f09SDavid van Moolenbroek 		} else if (c < 0xc0) {
219*00b67f09SDavid van Moolenbroek 			WARNING(("idn_ucs4_utf8toucs4: invalid character\n"));
220*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
221*00b67f09SDavid van Moolenbroek 			goto ret;
222*00b67f09SDavid van Moolenbroek 		} else if (c < 0xe0) {
223*00b67f09SDavid van Moolenbroek 			v = c & 0x1f;
224*00b67f09SDavid van Moolenbroek 			min = 0x80;
225*00b67f09SDavid van Moolenbroek 			width = 2;
226*00b67f09SDavid van Moolenbroek 		} else if (c < 0xf0) {
227*00b67f09SDavid van Moolenbroek 			v = c & 0x0f;
228*00b67f09SDavid van Moolenbroek 			min = 0x800;
229*00b67f09SDavid van Moolenbroek 			width = 3;
230*00b67f09SDavid van Moolenbroek 		} else if (c < 0xf8) {
231*00b67f09SDavid van Moolenbroek 			v = c & 0x07;
232*00b67f09SDavid van Moolenbroek 			min = 0x10000;
233*00b67f09SDavid van Moolenbroek 			width = 4;
234*00b67f09SDavid van Moolenbroek 		} else if (c < 0xfc) {
235*00b67f09SDavid van Moolenbroek 			v = c & 0x03;
236*00b67f09SDavid van Moolenbroek 			min = 0x200000;
237*00b67f09SDavid van Moolenbroek 			width = 5;
238*00b67f09SDavid van Moolenbroek 		} else if (c < 0xfe) {
239*00b67f09SDavid van Moolenbroek 			v = c & 0x01;
240*00b67f09SDavid van Moolenbroek 			min = 0x4000000;
241*00b67f09SDavid van Moolenbroek 			width = 6;
242*00b67f09SDavid van Moolenbroek 		} else {
243*00b67f09SDavid van Moolenbroek 			WARNING(("idn_ucs4_utf8toucs4: invalid character\n"));
244*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
245*00b67f09SDavid van Moolenbroek 			goto ret;
246*00b67f09SDavid van Moolenbroek 		}
247*00b67f09SDavid van Moolenbroek 
248*00b67f09SDavid van Moolenbroek 		for (i = width - 1; i > 0; i--) {
249*00b67f09SDavid van Moolenbroek 			c = *utf8p++;
250*00b67f09SDavid van Moolenbroek 			if (c < 0x80 || 0xc0 <= c) {
251*00b67f09SDavid van Moolenbroek 				WARNING(("idn_ucs4_utf8toucs4: "
252*00b67f09SDavid van Moolenbroek 					 "invalid character\n"));
253*00b67f09SDavid van Moolenbroek 				r = idn_invalid_encoding;
254*00b67f09SDavid van Moolenbroek 				goto ret;
255*00b67f09SDavid van Moolenbroek 			}
256*00b67f09SDavid van Moolenbroek 			v = (v << 6) | (c & 0x3f);
257*00b67f09SDavid van Moolenbroek 		}
258*00b67f09SDavid van Moolenbroek 
259*00b67f09SDavid van Moolenbroek 	        if (v < min) {
260*00b67f09SDavid van Moolenbroek 			WARNING(("idn_ucs4_utf8toucs4: invalid character\n"));
261*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
262*00b67f09SDavid van Moolenbroek 			goto ret;
263*00b67f09SDavid van Moolenbroek 		}
264*00b67f09SDavid van Moolenbroek 		if (IS_SURROGATE_LOW(v) || IS_SURROGATE_HIGH(v)) {
265*00b67f09SDavid van Moolenbroek 			WARNING(("idn_ucs4_utf8toucs4: UTF-8 string contains "
266*00b67f09SDavid van Moolenbroek 				 "surrogate pair\n"));
267*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
268*00b67f09SDavid van Moolenbroek 			goto ret;
269*00b67f09SDavid van Moolenbroek 		}
270*00b67f09SDavid van Moolenbroek 		if (tolen < 1) {
271*00b67f09SDavid van Moolenbroek 			r = idn_buffer_overflow;
272*00b67f09SDavid van Moolenbroek 			goto ret;
273*00b67f09SDavid van Moolenbroek 		}
274*00b67f09SDavid van Moolenbroek 		tolen--;
275*00b67f09SDavid van Moolenbroek 		*ucs4p++ = v;
276*00b67f09SDavid van Moolenbroek 	}
277*00b67f09SDavid van Moolenbroek 
278*00b67f09SDavid van Moolenbroek 	if (tolen < 1) {
279*00b67f09SDavid van Moolenbroek 		r = idn_buffer_overflow;
280*00b67f09SDavid van Moolenbroek 		goto ret;
281*00b67f09SDavid van Moolenbroek 	}
282*00b67f09SDavid van Moolenbroek 	*ucs4p = '\0';
283*00b67f09SDavid van Moolenbroek 
284*00b67f09SDavid van Moolenbroek 	r = idn_success;
285*00b67f09SDavid van Moolenbroek ret:
286*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
287*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_utf8toucs4(): success (ucs4=\"%s\")\n",
288*00b67f09SDavid van Moolenbroek 		       idn__debug_ucs4xstring(ucs4, 50)));
289*00b67f09SDavid van Moolenbroek 	} else {
290*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_utf8toucs4(): %s\n",
291*00b67f09SDavid van Moolenbroek 		       idn_result_tostring(r)));
292*00b67f09SDavid van Moolenbroek 	}
293*00b67f09SDavid van Moolenbroek 	return (r);
294*00b67f09SDavid van Moolenbroek }
295*00b67f09SDavid van Moolenbroek 
296*00b67f09SDavid van Moolenbroek idn_result_t
idn_ucs4_ucs4toutf8(const unsigned long * ucs4,char * utf8,size_t tolen)297*00b67f09SDavid van Moolenbroek idn_ucs4_ucs4toutf8(const unsigned long *ucs4, char *utf8, size_t tolen) {
298*00b67f09SDavid van Moolenbroek 	unsigned char *utf8p = (unsigned char *)utf8;
299*00b67f09SDavid van Moolenbroek 	unsigned long v;
300*00b67f09SDavid van Moolenbroek 	int width;
301*00b67f09SDavid van Moolenbroek 	int mask;
302*00b67f09SDavid van Moolenbroek 	int offset;
303*00b67f09SDavid van Moolenbroek 	idn_result_t r;
304*00b67f09SDavid van Moolenbroek 
305*00b67f09SDavid van Moolenbroek 	TRACE(("idn_ucs4_ucs4toutf8(ucs4=\"%s\", tolen=%d)\n",
306*00b67f09SDavid van Moolenbroek 	       idn__debug_ucs4xstring(ucs4, 50), (int)tolen));
307*00b67f09SDavid van Moolenbroek 
308*00b67f09SDavid van Moolenbroek 	while (*ucs4 != '\0') {
309*00b67f09SDavid van Moolenbroek 		v = *ucs4++;
310*00b67f09SDavid van Moolenbroek 		if (IS_SURROGATE_LOW(v) || IS_SURROGATE_HIGH(v)) {
311*00b67f09SDavid van Moolenbroek 			WARNING(("idn_ucs4_ucs4toutf8: UCS4 string contains "
312*00b67f09SDavid van Moolenbroek 				 "surrogate pair\n"));
313*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
314*00b67f09SDavid van Moolenbroek 			goto ret;
315*00b67f09SDavid van Moolenbroek 		}
316*00b67f09SDavid van Moolenbroek 		if (v < 0x80) {
317*00b67f09SDavid van Moolenbroek 			mask = 0;
318*00b67f09SDavid van Moolenbroek 			width = 1;
319*00b67f09SDavid van Moolenbroek 		} else if (v < 0x800) {
320*00b67f09SDavid van Moolenbroek 			mask = 0xc0;
321*00b67f09SDavid van Moolenbroek 			width = 2;
322*00b67f09SDavid van Moolenbroek 		} else if (v < 0x10000) {
323*00b67f09SDavid van Moolenbroek 			mask = 0xe0;
324*00b67f09SDavid van Moolenbroek 			width = 3;
325*00b67f09SDavid van Moolenbroek 		} else if (v < 0x200000) {
326*00b67f09SDavid van Moolenbroek 			mask = 0xf0;
327*00b67f09SDavid van Moolenbroek 			width = 4;
328*00b67f09SDavid van Moolenbroek 		} else if (v < 0x4000000) {
329*00b67f09SDavid van Moolenbroek 			mask = 0xf8;
330*00b67f09SDavid van Moolenbroek 			width = 5;
331*00b67f09SDavid van Moolenbroek 		} else if (v < 0x80000000) {
332*00b67f09SDavid van Moolenbroek 			mask = 0xfc;
333*00b67f09SDavid van Moolenbroek 			width = 6;
334*00b67f09SDavid van Moolenbroek 		} else {
335*00b67f09SDavid van Moolenbroek 			WARNING(("idn_ucs4_ucs4toutf8: invalid character\n"));
336*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
337*00b67f09SDavid van Moolenbroek 			goto ret;
338*00b67f09SDavid van Moolenbroek 		}
339*00b67f09SDavid van Moolenbroek 
340*00b67f09SDavid van Moolenbroek 		if (tolen < width) {
341*00b67f09SDavid van Moolenbroek 			r = idn_buffer_overflow;
342*00b67f09SDavid van Moolenbroek 			goto ret;
343*00b67f09SDavid van Moolenbroek 		}
344*00b67f09SDavid van Moolenbroek 		offset = 6 * (width - 1);
345*00b67f09SDavid van Moolenbroek 		*utf8p++ = (v >> offset) | mask;
346*00b67f09SDavid van Moolenbroek 		mask = 0x80;
347*00b67f09SDavid van Moolenbroek 		while (offset > 0) {
348*00b67f09SDavid van Moolenbroek 			offset -= 6;
349*00b67f09SDavid van Moolenbroek 			*utf8p++ = ((v >> offset) & 0x3f) | mask;
350*00b67f09SDavid van Moolenbroek 		}
351*00b67f09SDavid van Moolenbroek 		tolen -= width;
352*00b67f09SDavid van Moolenbroek 	}
353*00b67f09SDavid van Moolenbroek 
354*00b67f09SDavid van Moolenbroek 	if (tolen < 1) {
355*00b67f09SDavid van Moolenbroek 		r = idn_buffer_overflow;
356*00b67f09SDavid van Moolenbroek 		goto ret;
357*00b67f09SDavid van Moolenbroek 	}
358*00b67f09SDavid van Moolenbroek 	*utf8p = '\0';
359*00b67f09SDavid van Moolenbroek 
360*00b67f09SDavid van Moolenbroek 	r = idn_success;
361*00b67f09SDavid van Moolenbroek ret:
362*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
363*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_ucs4toutf8(): success (utf8=\"%s\")\n",
364*00b67f09SDavid van Moolenbroek 		       idn__debug_xstring(utf8, 50)));
365*00b67f09SDavid van Moolenbroek 	} else {
366*00b67f09SDavid van Moolenbroek 		TRACE(("idn_ucs4_ucs4toutf8(): %s\n",
367*00b67f09SDavid van Moolenbroek 		       idn_result_tostring(r)));
368*00b67f09SDavid van Moolenbroek 	}
369*00b67f09SDavid van Moolenbroek 	return (r);
370*00b67f09SDavid van Moolenbroek }
371*00b67f09SDavid van Moolenbroek 
372*00b67f09SDavid van Moolenbroek size_t
idn_ucs4_strlen(const unsigned long * ucs4)373*00b67f09SDavid van Moolenbroek idn_ucs4_strlen(const unsigned long *ucs4) {
374*00b67f09SDavid van Moolenbroek 	size_t len;
375*00b67f09SDavid van Moolenbroek 
376*00b67f09SDavid van Moolenbroek 	for (len = 0; *ucs4 != '\0'; ucs4++, len++)
377*00b67f09SDavid van Moolenbroek 		/* nothing to do */ ;
378*00b67f09SDavid van Moolenbroek 
379*00b67f09SDavid van Moolenbroek 	return (len);
380*00b67f09SDavid van Moolenbroek }
381*00b67f09SDavid van Moolenbroek 
382*00b67f09SDavid van Moolenbroek unsigned long *
idn_ucs4_strcpy(unsigned long * to,const unsigned long * from)383*00b67f09SDavid van Moolenbroek idn_ucs4_strcpy(unsigned long *to, const unsigned long *from) {
384*00b67f09SDavid van Moolenbroek 	unsigned long *result = to;
385*00b67f09SDavid van Moolenbroek 
386*00b67f09SDavid van Moolenbroek 	while (*from != '\0')
387*00b67f09SDavid van Moolenbroek 		*to++ = *from++;
388*00b67f09SDavid van Moolenbroek 	*to = '\0';
389*00b67f09SDavid van Moolenbroek 
390*00b67f09SDavid van Moolenbroek 	return (result);
391*00b67f09SDavid van Moolenbroek }
392*00b67f09SDavid van Moolenbroek 
393*00b67f09SDavid van Moolenbroek unsigned long *
idn_ucs4_strcat(unsigned long * to,const unsigned long * from)394*00b67f09SDavid van Moolenbroek idn_ucs4_strcat(unsigned long *to, const unsigned long *from) {
395*00b67f09SDavid van Moolenbroek 	unsigned long *result = to;
396*00b67f09SDavid van Moolenbroek 
397*00b67f09SDavid van Moolenbroek 	while (*to != '\0')
398*00b67f09SDavid van Moolenbroek 		to++;
399*00b67f09SDavid van Moolenbroek 
400*00b67f09SDavid van Moolenbroek 	while (*from != '\0')
401*00b67f09SDavid van Moolenbroek 		*to++ = *from++;
402*00b67f09SDavid van Moolenbroek 	*to = '\0';
403*00b67f09SDavid van Moolenbroek 
404*00b67f09SDavid van Moolenbroek 	return (result);
405*00b67f09SDavid van Moolenbroek }
406*00b67f09SDavid van Moolenbroek 
407*00b67f09SDavid van Moolenbroek int
idn_ucs4_strcmp(const unsigned long * str1,const unsigned long * str2)408*00b67f09SDavid van Moolenbroek idn_ucs4_strcmp(const unsigned long *str1, const unsigned long *str2) {
409*00b67f09SDavid van Moolenbroek 	while (*str1 != '\0') {
410*00b67f09SDavid van Moolenbroek 		if (*str1 > *str2)
411*00b67f09SDavid van Moolenbroek 			return (1);
412*00b67f09SDavid van Moolenbroek 		else if (*str1 < *str2)
413*00b67f09SDavid van Moolenbroek 			return (-1);
414*00b67f09SDavid van Moolenbroek 		str1++;
415*00b67f09SDavid van Moolenbroek 		str2++;
416*00b67f09SDavid van Moolenbroek 	}
417*00b67f09SDavid van Moolenbroek 
418*00b67f09SDavid van Moolenbroek 	if (*str1 > *str2)
419*00b67f09SDavid van Moolenbroek 		return (1);
420*00b67f09SDavid van Moolenbroek 	else if (*str1 < *str2)
421*00b67f09SDavid van Moolenbroek 		return (-1);
422*00b67f09SDavid van Moolenbroek 
423*00b67f09SDavid van Moolenbroek 	return (0);
424*00b67f09SDavid van Moolenbroek }
425*00b67f09SDavid van Moolenbroek 
426*00b67f09SDavid van Moolenbroek int
idn_ucs4_strcasecmp(const unsigned long * str1,const unsigned long * str2)427*00b67f09SDavid van Moolenbroek idn_ucs4_strcasecmp(const unsigned long *str1, const unsigned long *str2) {
428*00b67f09SDavid van Moolenbroek 	unsigned long c1, c2;
429*00b67f09SDavid van Moolenbroek 
430*00b67f09SDavid van Moolenbroek 	while (*str1 != '\0') {
431*00b67f09SDavid van Moolenbroek 		c1 = ASCII_TOLOWER(*str1);
432*00b67f09SDavid van Moolenbroek 		c2 = ASCII_TOLOWER(*str2);
433*00b67f09SDavid van Moolenbroek 		if (c1 > c2)
434*00b67f09SDavid van Moolenbroek 			return (1);
435*00b67f09SDavid van Moolenbroek 		else if (c1 < c2)
436*00b67f09SDavid van Moolenbroek 			return (-1);
437*00b67f09SDavid van Moolenbroek 		str1++;
438*00b67f09SDavid van Moolenbroek 		str2++;
439*00b67f09SDavid van Moolenbroek 	}
440*00b67f09SDavid van Moolenbroek 
441*00b67f09SDavid van Moolenbroek 	c1 = ASCII_TOLOWER(*str1);
442*00b67f09SDavid van Moolenbroek 	c2 = ASCII_TOLOWER(*str2);
443*00b67f09SDavid van Moolenbroek 	if (c1 > c2)
444*00b67f09SDavid van Moolenbroek 		return (1);
445*00b67f09SDavid van Moolenbroek 	else if (c1 < c2)
446*00b67f09SDavid van Moolenbroek 		return (-1);
447*00b67f09SDavid van Moolenbroek 
448*00b67f09SDavid van Moolenbroek 	return (0);
449*00b67f09SDavid van Moolenbroek }
450*00b67f09SDavid van Moolenbroek 
451*00b67f09SDavid van Moolenbroek 
452*00b67f09SDavid van Moolenbroek unsigned long *
idn_ucs4_strdup(const unsigned long * str)453*00b67f09SDavid van Moolenbroek idn_ucs4_strdup(const unsigned long *str) {
454*00b67f09SDavid van Moolenbroek 	size_t length = idn_ucs4_strlen(str);
455*00b67f09SDavid van Moolenbroek 	unsigned long *dupstr;
456*00b67f09SDavid van Moolenbroek 
457*00b67f09SDavid van Moolenbroek 	dupstr = (unsigned long *)malloc(sizeof(*str) * (length + 1));
458*00b67f09SDavid van Moolenbroek 	if (dupstr == NULL)
459*00b67f09SDavid van Moolenbroek 		return NULL;
460*00b67f09SDavid van Moolenbroek 	memcpy(dupstr, str, sizeof(*str) * (length + 1));
461*00b67f09SDavid van Moolenbroek 
462*00b67f09SDavid van Moolenbroek 	return dupstr;
463*00b67f09SDavid van Moolenbroek }
464