xref: /minix3/external/bsd/bind/dist/contrib/idn/idnkit-1.0-src/lib/race.c (revision 00b67f09dd46474d133c95011a48590a8e8f94c7)
1*00b67f09SDavid van Moolenbroek /*	$NetBSD: race.c,v 1.4 2014/12/10 04:37:55 christos Exp $	*/
2*00b67f09SDavid van Moolenbroek 
3*00b67f09SDavid van Moolenbroek #ifndef lint
4*00b67f09SDavid van Moolenbroek static char *rcsid = "Id: race.c,v 1.1 2003/06/04 00:26:07 marka Exp ";
5*00b67f09SDavid van Moolenbroek #endif
6*00b67f09SDavid van Moolenbroek 
7*00b67f09SDavid van Moolenbroek /*
8*00b67f09SDavid van Moolenbroek  * Copyright (c) 2000,2001,2002 Japan Network Information Center.
9*00b67f09SDavid van Moolenbroek  * All rights reserved.
10*00b67f09SDavid van Moolenbroek  *
11*00b67f09SDavid van Moolenbroek  * By using this file, you agree to the terms and conditions set forth bellow.
12*00b67f09SDavid van Moolenbroek  *
13*00b67f09SDavid van Moolenbroek  * 			LICENSE TERMS AND CONDITIONS
14*00b67f09SDavid van Moolenbroek  *
15*00b67f09SDavid van Moolenbroek  * The following License Terms and Conditions apply, unless a different
16*00b67f09SDavid van Moolenbroek  * license is obtained from Japan Network Information Center ("JPNIC"),
17*00b67f09SDavid van Moolenbroek  * a Japanese association, Kokusai-Kougyou-Kanda Bldg 6F, 2-3-4 Uchi-Kanda,
18*00b67f09SDavid van Moolenbroek  * Chiyoda-ku, Tokyo 101-0047, Japan.
19*00b67f09SDavid van Moolenbroek  *
20*00b67f09SDavid van Moolenbroek  * 1. Use, Modification and Redistribution (including distribution of any
21*00b67f09SDavid van Moolenbroek  *    modified or derived work) in source and/or binary forms is permitted
22*00b67f09SDavid van Moolenbroek  *    under this License Terms and Conditions.
23*00b67f09SDavid van Moolenbroek  *
24*00b67f09SDavid van Moolenbroek  * 2. Redistribution of source code must retain the copyright notices as they
25*00b67f09SDavid van Moolenbroek  *    appear in each source code file, this License Terms and Conditions.
26*00b67f09SDavid van Moolenbroek  *
27*00b67f09SDavid van Moolenbroek  * 3. Redistribution in binary form must reproduce the Copyright Notice,
28*00b67f09SDavid van Moolenbroek  *    this License Terms and Conditions, in the documentation and/or other
29*00b67f09SDavid van Moolenbroek  *    materials provided with the distribution.  For the purposes of binary
30*00b67f09SDavid van Moolenbroek  *    distribution the "Copyright Notice" refers to the following language:
31*00b67f09SDavid van Moolenbroek  *    "Copyright (c) 2000-2002 Japan Network Information Center.  All rights reserved."
32*00b67f09SDavid van Moolenbroek  *
33*00b67f09SDavid van Moolenbroek  * 4. The name of JPNIC may not be used to endorse or promote products
34*00b67f09SDavid van Moolenbroek  *    derived from this Software without specific prior written approval of
35*00b67f09SDavid van Moolenbroek  *    JPNIC.
36*00b67f09SDavid van Moolenbroek  *
37*00b67f09SDavid van Moolenbroek  * 5. Disclaimer/Limitation of Liability: THIS SOFTWARE IS PROVIDED BY JPNIC
38*00b67f09SDavid van Moolenbroek  *    "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
39*00b67f09SDavid van Moolenbroek  *    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A
40*00b67f09SDavid van Moolenbroek  *    PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL JPNIC BE LIABLE
41*00b67f09SDavid van Moolenbroek  *    FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
42*00b67f09SDavid van Moolenbroek  *    CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
43*00b67f09SDavid van Moolenbroek  *    SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR
44*00b67f09SDavid van Moolenbroek  *    BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY,
45*00b67f09SDavid van Moolenbroek  *    WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR
46*00b67f09SDavid van Moolenbroek  *    OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
47*00b67f09SDavid van Moolenbroek  *    ADVISED OF THE POSSIBILITY OF SUCH DAMAGES.
48*00b67f09SDavid van Moolenbroek  */
49*00b67f09SDavid van Moolenbroek 
50*00b67f09SDavid van Moolenbroek #include <config.h>
51*00b67f09SDavid van Moolenbroek 
52*00b67f09SDavid van Moolenbroek #include <stddef.h>
53*00b67f09SDavid van Moolenbroek #include <stdlib.h>
54*00b67f09SDavid van Moolenbroek #include <string.h>
55*00b67f09SDavid van Moolenbroek 
56*00b67f09SDavid van Moolenbroek #include <idn/result.h>
57*00b67f09SDavid van Moolenbroek #include <idn/assert.h>
58*00b67f09SDavid van Moolenbroek #include <idn/logmacro.h>
59*00b67f09SDavid van Moolenbroek #include <idn/converter.h>
60*00b67f09SDavid van Moolenbroek #include <idn/ucs4.h>
61*00b67f09SDavid van Moolenbroek #include <idn/debug.h>
62*00b67f09SDavid van Moolenbroek #include <idn/race.h>
63*00b67f09SDavid van Moolenbroek #include <idn/util.h>
64*00b67f09SDavid van Moolenbroek 
65*00b67f09SDavid van Moolenbroek #ifndef IDN_RACE_PREFIX
66*00b67f09SDavid van Moolenbroek #define IDN_RACE_PREFIX		"bq--"
67*00b67f09SDavid van Moolenbroek #endif
68*00b67f09SDavid van Moolenbroek #define RACE_2OCTET_MODE	0xd8
69*00b67f09SDavid van Moolenbroek #define RACE_ESCAPE		0xff
70*00b67f09SDavid van Moolenbroek #define RACE_ESCAPE_2ND		0x99
71*00b67f09SDavid van Moolenbroek 
72*00b67f09SDavid van Moolenbroek #define RACE_BUF_SIZE		128		/* more than enough */
73*00b67f09SDavid van Moolenbroek 
74*00b67f09SDavid van Moolenbroek /*
75*00b67f09SDavid van Moolenbroek  * Unicode surrogate pair.
76*00b67f09SDavid van Moolenbroek  */
77*00b67f09SDavid van Moolenbroek #define IS_SURROGATE_HIGH(v)	(0xd800 <= (v) && (v) <= 0xdbff)
78*00b67f09SDavid van Moolenbroek #define IS_SURROGATE_LOW(v)	(0xdc00 <= (v) && (v) <= 0xdfff)
79*00b67f09SDavid van Moolenbroek #define SURROGATE_HIGH(v)	(SURROGATE_H_OFF + (((v) - 0x10000) >> 10))
80*00b67f09SDavid van Moolenbroek #define SURROGATE_LOW(v)	(SURROGATE_L_OFF + ((v) & 0x3ff))
81*00b67f09SDavid van Moolenbroek #define SURROGATE_BASE		0x10000
82*00b67f09SDavid van Moolenbroek #define SURROGATE_H_OFF		0xd800
83*00b67f09SDavid van Moolenbroek #define SURROGATE_L_OFF		0xdc00
84*00b67f09SDavid van Moolenbroek #define COMBINE_SURROGATE(h, l) \
85*00b67f09SDavid van Moolenbroek 	(SURROGATE_BASE + (((h)-SURROGATE_H_OFF)<<10) + ((l)-SURROGATE_L_OFF))
86*00b67f09SDavid van Moolenbroek 
87*00b67f09SDavid van Moolenbroek /*
88*00b67f09SDavid van Moolenbroek  * Compression type.
89*00b67f09SDavid van Moolenbroek  */
90*00b67f09SDavid van Moolenbroek enum {
91*00b67f09SDavid van Moolenbroek 	compress_one,	/* all characters are in a single row */
92*00b67f09SDavid van Moolenbroek 	compress_two,	/* row 0 and another row */
93*00b67f09SDavid van Moolenbroek 	compress_none	/* nope */
94*00b67f09SDavid van Moolenbroek };
95*00b67f09SDavid van Moolenbroek 
96*00b67f09SDavid van Moolenbroek static idn_result_t	race_decode_decompress(const char *from,
97*00b67f09SDavid van Moolenbroek 					       unsigned short *buf,
98*00b67f09SDavid van Moolenbroek 					       size_t buflen);
99*00b67f09SDavid van Moolenbroek static idn_result_t	race_compress_encode(const unsigned short *p,
100*00b67f09SDavid van Moolenbroek 					     int compress_mode,
101*00b67f09SDavid van Moolenbroek 					     char *to, size_t tolen);
102*00b67f09SDavid van Moolenbroek static int		get_compress_mode(unsigned short *p);
103*00b67f09SDavid van Moolenbroek 
104*00b67f09SDavid van Moolenbroek idn_result_t
idn__race_decode(idn_converter_t ctx,void * privdata,const char * from,unsigned long * to,size_t tolen)105*00b67f09SDavid van Moolenbroek idn__race_decode(idn_converter_t ctx, void *privdata,
106*00b67f09SDavid van Moolenbroek 		 const char *from, unsigned long *to, size_t tolen) {
107*00b67f09SDavid van Moolenbroek 	unsigned short *buf = NULL;
108*00b67f09SDavid van Moolenbroek 	size_t prefixlen = strlen(IDN_RACE_PREFIX);
109*00b67f09SDavid van Moolenbroek 	size_t fromlen;
110*00b67f09SDavid van Moolenbroek 	size_t buflen;
111*00b67f09SDavid van Moolenbroek 	idn_result_t r;
112*00b67f09SDavid van Moolenbroek 
113*00b67f09SDavid van Moolenbroek 	assert(ctx != NULL);
114*00b67f09SDavid van Moolenbroek 
115*00b67f09SDavid van Moolenbroek 	TRACE(("idn__race_decode(from=\"%s\", tolen=%d)\n",
116*00b67f09SDavid van Moolenbroek 	       idn__debug_xstring(from, 50), (int)tolen));
117*00b67f09SDavid van Moolenbroek 
118*00b67f09SDavid van Moolenbroek 	if (!idn__util_asciihaveaceprefix(from, IDN_RACE_PREFIX)) {
119*00b67f09SDavid van Moolenbroek 		if (*from == '\0') {
120*00b67f09SDavid van Moolenbroek 			r = idn_ucs4_utf8toucs4(from, to, tolen);
121*00b67f09SDavid van Moolenbroek 			goto ret;
122*00b67f09SDavid van Moolenbroek 		}
123*00b67f09SDavid van Moolenbroek 		r = idn_invalid_encoding;
124*00b67f09SDavid van Moolenbroek 		goto ret;
125*00b67f09SDavid van Moolenbroek 	}
126*00b67f09SDavid van Moolenbroek 	from += prefixlen;
127*00b67f09SDavid van Moolenbroek 	fromlen = strlen(from);
128*00b67f09SDavid van Moolenbroek 
129*00b67f09SDavid van Moolenbroek 	/*
130*00b67f09SDavid van Moolenbroek 	 * Allocate sufficient buffer.
131*00b67f09SDavid van Moolenbroek 	 */
132*00b67f09SDavid van Moolenbroek 	buflen = fromlen + 1;
133*00b67f09SDavid van Moolenbroek 	buf = malloc(sizeof(*buf) * buflen);
134*00b67f09SDavid van Moolenbroek 	if (buf == NULL) {
135*00b67f09SDavid van Moolenbroek 		r = idn_nomemory;
136*00b67f09SDavid van Moolenbroek 		goto ret;
137*00b67f09SDavid van Moolenbroek 	}
138*00b67f09SDavid van Moolenbroek 
139*00b67f09SDavid van Moolenbroek 	/*
140*00b67f09SDavid van Moolenbroek 	 * Decode base32 and decompress.
141*00b67f09SDavid van Moolenbroek 	 */
142*00b67f09SDavid van Moolenbroek 	r = race_decode_decompress(from, buf, buflen);
143*00b67f09SDavid van Moolenbroek 	if (r != idn_success)
144*00b67f09SDavid van Moolenbroek 		goto ret;
145*00b67f09SDavid van Moolenbroek 
146*00b67f09SDavid van Moolenbroek 	/*
147*00b67f09SDavid van Moolenbroek 	 * Now 'buf' points the decompressed string, which must contain
148*00b67f09SDavid van Moolenbroek 	 * UTF-16 characters.
149*00b67f09SDavid van Moolenbroek 	 */
150*00b67f09SDavid van Moolenbroek 
151*00b67f09SDavid van Moolenbroek 	/*
152*00b67f09SDavid van Moolenbroek 	 * Convert to UCS4.
153*00b67f09SDavid van Moolenbroek 	 */
154*00b67f09SDavid van Moolenbroek 	r = idn_ucs4_utf16toucs4(buf, to, tolen);
155*00b67f09SDavid van Moolenbroek 	if (r != idn_success)
156*00b67f09SDavid van Moolenbroek 		goto ret;
157*00b67f09SDavid van Moolenbroek 
158*00b67f09SDavid van Moolenbroek ret:
159*00b67f09SDavid van Moolenbroek 	free(buf);
160*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
161*00b67f09SDavid van Moolenbroek 		TRACE(("idn__race_decode(): succcess (to=\"%s\")\n",
162*00b67f09SDavid van Moolenbroek 		       idn__debug_ucs4xstring(to, 50)));
163*00b67f09SDavid van Moolenbroek 	} else {
164*00b67f09SDavid van Moolenbroek 		TRACE(("idn__race_decode(): %s\n", idn_result_tostring(r)));
165*00b67f09SDavid van Moolenbroek 	}
166*00b67f09SDavid van Moolenbroek 	return (r);
167*00b67f09SDavid van Moolenbroek }
168*00b67f09SDavid van Moolenbroek 
169*00b67f09SDavid van Moolenbroek static idn_result_t
race_decode_decompress(const char * from,unsigned short * buf,size_t buflen)170*00b67f09SDavid van Moolenbroek race_decode_decompress(const char *from, unsigned short *buf, size_t buflen)
171*00b67f09SDavid van Moolenbroek {
172*00b67f09SDavid van Moolenbroek 	unsigned short *p = buf;
173*00b67f09SDavid van Moolenbroek 	unsigned int bitbuf = 0;
174*00b67f09SDavid van Moolenbroek 	int bitlen = 0;
175*00b67f09SDavid van Moolenbroek 	int i, j;
176*00b67f09SDavid van Moolenbroek 	size_t len;
177*00b67f09SDavid van Moolenbroek 
178*00b67f09SDavid van Moolenbroek 	while (*from != '\0') {
179*00b67f09SDavid van Moolenbroek 		int c = *from++;
180*00b67f09SDavid van Moolenbroek 		int x;
181*00b67f09SDavid van Moolenbroek 
182*00b67f09SDavid van Moolenbroek 		if ('a' <= c && c <= 'z')
183*00b67f09SDavid van Moolenbroek 			x = c - 'a';
184*00b67f09SDavid van Moolenbroek 		else if ('A' <= c && c <= 'Z')
185*00b67f09SDavid van Moolenbroek 			x = c - 'A';
186*00b67f09SDavid van Moolenbroek 		else if ('2' <= c && c <= '7')
187*00b67f09SDavid van Moolenbroek 			x = c - '2' + 26;
188*00b67f09SDavid van Moolenbroek 		else
189*00b67f09SDavid van Moolenbroek 			return (idn_invalid_encoding);
190*00b67f09SDavid van Moolenbroek 
191*00b67f09SDavid van Moolenbroek 		bitbuf = (bitbuf << 5) + x;
192*00b67f09SDavid van Moolenbroek 		bitlen += 5;
193*00b67f09SDavid van Moolenbroek 		if (bitlen >= 8) {
194*00b67f09SDavid van Moolenbroek 			*p++ = (bitbuf >> (bitlen - 8)) & 0xff;
195*00b67f09SDavid van Moolenbroek 			bitlen -= 8;
196*00b67f09SDavid van Moolenbroek 		}
197*00b67f09SDavid van Moolenbroek 	}
198*00b67f09SDavid van Moolenbroek 	len = p - buf;
199*00b67f09SDavid van Moolenbroek 
200*00b67f09SDavid van Moolenbroek 	/*
201*00b67f09SDavid van Moolenbroek 	 * Now 'buf' holds the decoded string.
202*00b67f09SDavid van Moolenbroek 	 */
203*00b67f09SDavid van Moolenbroek 
204*00b67f09SDavid van Moolenbroek 	/*
205*00b67f09SDavid van Moolenbroek 	 * Decompress.
206*00b67f09SDavid van Moolenbroek 	 */
207*00b67f09SDavid van Moolenbroek 	if (buf[0] == RACE_2OCTET_MODE) {
208*00b67f09SDavid van Moolenbroek 		if ((len - 1) % 2 != 0)
209*00b67f09SDavid van Moolenbroek 			return (idn_invalid_encoding);
210*00b67f09SDavid van Moolenbroek 		for (i = 1, j = 0; i < len; i += 2, j++)
211*00b67f09SDavid van Moolenbroek 			buf[j] = (buf[i] << 8) + buf[i + 1];
212*00b67f09SDavid van Moolenbroek 		len = j;
213*00b67f09SDavid van Moolenbroek 	} else {
214*00b67f09SDavid van Moolenbroek 		unsigned short c = buf[0] << 8;	/* higher octet */
215*00b67f09SDavid van Moolenbroek 
216*00b67f09SDavid van Moolenbroek 		for (i = 1, j = 0; i < len; j++) {
217*00b67f09SDavid van Moolenbroek 			if (buf[i] == RACE_ESCAPE) {
218*00b67f09SDavid van Moolenbroek 				if (i + 1 >= len)
219*00b67f09SDavid van Moolenbroek 					return (idn_invalid_encoding);
220*00b67f09SDavid van Moolenbroek 				else if (buf[i + 1] == RACE_ESCAPE_2ND)
221*00b67f09SDavid van Moolenbroek 					buf[j] = c | 0xff;
222*00b67f09SDavid van Moolenbroek 				else
223*00b67f09SDavid van Moolenbroek 					buf[j] = buf[i + 1];
224*00b67f09SDavid van Moolenbroek 				i += 2;
225*00b67f09SDavid van Moolenbroek 
226*00b67f09SDavid van Moolenbroek 			} else if (buf[i] == 0x99 && c == 0x00) {
227*00b67f09SDavid van Moolenbroek 				/*
228*00b67f09SDavid van Moolenbroek 				 * The RACE specification says this is error.
229*00b67f09SDavid van Moolenbroek 				 */
230*00b67f09SDavid van Moolenbroek 				return (idn_invalid_encoding);
231*00b67f09SDavid van Moolenbroek 
232*00b67f09SDavid van Moolenbroek 			} else {
233*00b67f09SDavid van Moolenbroek 				buf[j] = c | buf[i++];
234*00b67f09SDavid van Moolenbroek 			}
235*00b67f09SDavid van Moolenbroek 		}
236*00b67f09SDavid van Moolenbroek 		len = j;
237*00b67f09SDavid van Moolenbroek 	}
238*00b67f09SDavid van Moolenbroek 	buf[len] = '\0';
239*00b67f09SDavid van Moolenbroek 
240*00b67f09SDavid van Moolenbroek 	return (idn_success);
241*00b67f09SDavid van Moolenbroek }
242*00b67f09SDavid van Moolenbroek 
243*00b67f09SDavid van Moolenbroek idn_result_t
idn__race_encode(idn_converter_t ctx,void * privdata,const unsigned long * from,char * to,size_t tolen)244*00b67f09SDavid van Moolenbroek idn__race_encode(idn_converter_t ctx, void *privdata,
245*00b67f09SDavid van Moolenbroek 		 const unsigned long *from, char *to, size_t tolen) {
246*00b67f09SDavid van Moolenbroek 	char *to_org = to;
247*00b67f09SDavid van Moolenbroek 	unsigned short *p, *buf = NULL;
248*00b67f09SDavid van Moolenbroek 	size_t prefixlen = strlen(IDN_RACE_PREFIX);
249*00b67f09SDavid van Moolenbroek 	size_t buflen;
250*00b67f09SDavid van Moolenbroek 	size_t fromlen;
251*00b67f09SDavid van Moolenbroek 	idn_result_t r;
252*00b67f09SDavid van Moolenbroek 	int compress_mode;
253*00b67f09SDavid van Moolenbroek 
254*00b67f09SDavid van Moolenbroek 	assert(ctx != NULL);
255*00b67f09SDavid van Moolenbroek 
256*00b67f09SDavid van Moolenbroek 	TRACE(("idn__race_encode(from=\"%s\", tolen=%d)\n",
257*00b67f09SDavid van Moolenbroek 	       idn__debug_ucs4xstring(from, 50), (int)tolen));
258*00b67f09SDavid van Moolenbroek 
259*00b67f09SDavid van Moolenbroek 	if (*from == '\0') {
260*00b67f09SDavid van Moolenbroek 		r = idn_ucs4_ucs4toutf8(from, to, tolen);
261*00b67f09SDavid van Moolenbroek 		goto ret;
262*00b67f09SDavid van Moolenbroek 	} else if (idn__util_ucs4haveaceprefix(from, IDN_RACE_PREFIX)) {
263*00b67f09SDavid van Moolenbroek 		r = idn_prohibited;
264*00b67f09SDavid van Moolenbroek 		goto ret;
265*00b67f09SDavid van Moolenbroek 	}
266*00b67f09SDavid van Moolenbroek 
267*00b67f09SDavid van Moolenbroek 	if (tolen < prefixlen) {
268*00b67f09SDavid van Moolenbroek 		r  = idn_buffer_overflow;
269*00b67f09SDavid van Moolenbroek 		goto ret;
270*00b67f09SDavid van Moolenbroek 	}
271*00b67f09SDavid van Moolenbroek 	memcpy(to, IDN_RACE_PREFIX, prefixlen);
272*00b67f09SDavid van Moolenbroek 	to += prefixlen;
273*00b67f09SDavid van Moolenbroek 	tolen -= prefixlen;
274*00b67f09SDavid van Moolenbroek 
275*00b67f09SDavid van Moolenbroek 	fromlen = idn_ucs4_strlen(from);
276*00b67f09SDavid van Moolenbroek 	buflen = fromlen * 2 + 2;
277*00b67f09SDavid van Moolenbroek 
278*00b67f09SDavid van Moolenbroek 	/*
279*00b67f09SDavid van Moolenbroek 	 * Convert to UTF-16.
280*00b67f09SDavid van Moolenbroek 	 * Preserve space for a character at the top of the buffer.
281*00b67f09SDavid van Moolenbroek 	 */
282*00b67f09SDavid van Moolenbroek 	for (;;) {
283*00b67f09SDavid van Moolenbroek 		unsigned short *new_buf;
284*00b67f09SDavid van Moolenbroek 
285*00b67f09SDavid van Moolenbroek 		new_buf = realloc(buf, sizeof(*buf) * buflen);
286*00b67f09SDavid van Moolenbroek 		if (new_buf == NULL) {
287*00b67f09SDavid van Moolenbroek 			r = idn_nomemory;
288*00b67f09SDavid van Moolenbroek 			goto ret;
289*00b67f09SDavid van Moolenbroek 		}
290*00b67f09SDavid van Moolenbroek 		buf = new_buf;
291*00b67f09SDavid van Moolenbroek 
292*00b67f09SDavid van Moolenbroek 		r = idn_ucs4_ucs4toutf16(from, buf + 1, buflen - 1);
293*00b67f09SDavid van Moolenbroek 		if (r == idn_success)
294*00b67f09SDavid van Moolenbroek 			break;
295*00b67f09SDavid van Moolenbroek 		else if (r != idn_buffer_overflow)
296*00b67f09SDavid van Moolenbroek 			goto ret;
297*00b67f09SDavid van Moolenbroek 
298*00b67f09SDavid van Moolenbroek 		buflen = fromlen * 2 + 2;
299*00b67f09SDavid van Moolenbroek 	}
300*00b67f09SDavid van Moolenbroek 	p = buf + 1;
301*00b67f09SDavid van Moolenbroek 
302*00b67f09SDavid van Moolenbroek 	/*
303*00b67f09SDavid van Moolenbroek 	 * Now 'p' contains UTF-16 encoded string.
304*00b67f09SDavid van Moolenbroek 	 */
305*00b67f09SDavid van Moolenbroek 
306*00b67f09SDavid van Moolenbroek 	/*
307*00b67f09SDavid van Moolenbroek 	 * Check U+0099.
308*00b67f09SDavid van Moolenbroek 	 * RACE doesn't permit U+0099 in an input string.
309*00b67f09SDavid van Moolenbroek 	 */
310*00b67f09SDavid van Moolenbroek 	for (p = buf + 1; *p != '\0'; p++) {
311*00b67f09SDavid van Moolenbroek 		if (*p == 0x0099) {
312*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
313*00b67f09SDavid van Moolenbroek 			goto ret;
314*00b67f09SDavid van Moolenbroek 		}
315*00b67f09SDavid van Moolenbroek 	}
316*00b67f09SDavid van Moolenbroek 
317*00b67f09SDavid van Moolenbroek 	/*
318*00b67f09SDavid van Moolenbroek 	 * Compress, encode in base-32 and output.
319*00b67f09SDavid van Moolenbroek 	 */
320*00b67f09SDavid van Moolenbroek 	compress_mode = get_compress_mode(buf + 1);
321*00b67f09SDavid van Moolenbroek 	r = race_compress_encode(buf, compress_mode, to, tolen);
322*00b67f09SDavid van Moolenbroek 
323*00b67f09SDavid van Moolenbroek ret:
324*00b67f09SDavid van Moolenbroek 	free(buf);
325*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
326*00b67f09SDavid van Moolenbroek 		TRACE(("idn__race_encode(): succcess (to=\"%s\")\n",
327*00b67f09SDavid van Moolenbroek 		       idn__debug_xstring(to_org, 50)));
328*00b67f09SDavid van Moolenbroek 	} else {
329*00b67f09SDavid van Moolenbroek 		TRACE(("idn__race_encode(): %s\n", idn_result_tostring(r)));
330*00b67f09SDavid van Moolenbroek 	}
331*00b67f09SDavid van Moolenbroek 	return (r);
332*00b67f09SDavid van Moolenbroek }
333*00b67f09SDavid van Moolenbroek 
334*00b67f09SDavid van Moolenbroek static idn_result_t
race_compress_encode(const unsigned short * p,int compress_mode,char * to,size_t tolen)335*00b67f09SDavid van Moolenbroek race_compress_encode(const unsigned short *p, int compress_mode,
336*00b67f09SDavid van Moolenbroek 		     char *to, size_t tolen)
337*00b67f09SDavid van Moolenbroek {
338*00b67f09SDavid van Moolenbroek 	unsigned long bitbuf = *p++;	/* bit stream buffer */
339*00b67f09SDavid van Moolenbroek 	int bitlen = 8;			/* # of bits in 'bitbuf' */
340*00b67f09SDavid van Moolenbroek 
341*00b67f09SDavid van Moolenbroek 	while (*p != '\0' || bitlen > 0) {
342*00b67f09SDavid van Moolenbroek 		unsigned int c = *p;
343*00b67f09SDavid van Moolenbroek 
344*00b67f09SDavid van Moolenbroek 		if (c == '\0') {
345*00b67f09SDavid van Moolenbroek 			/* End of data.  Flush. */
346*00b67f09SDavid van Moolenbroek 			bitbuf <<= (5 - bitlen);
347*00b67f09SDavid van Moolenbroek 			bitlen = 5;
348*00b67f09SDavid van Moolenbroek 		} else if (compress_mode == compress_none) {
349*00b67f09SDavid van Moolenbroek 			/* Push 16 bit data. */
350*00b67f09SDavid van Moolenbroek 			bitbuf = (bitbuf << 16) | c;
351*00b67f09SDavid van Moolenbroek 			bitlen += 16;
352*00b67f09SDavid van Moolenbroek 			p++;
353*00b67f09SDavid van Moolenbroek 		} else {/* compress_mode == compress_one/compress_two */
354*00b67f09SDavid van Moolenbroek 			/* Push 8 or 16 bit data. */
355*00b67f09SDavid van Moolenbroek 			if (compress_mode == compress_two &&
356*00b67f09SDavid van Moolenbroek 			    (c & 0xff00) == 0) {
357*00b67f09SDavid van Moolenbroek 				/* Upper octet is zero (and not U1). */
358*00b67f09SDavid van Moolenbroek 				bitbuf = (bitbuf << 16) | 0xff00 | c;
359*00b67f09SDavid van Moolenbroek 				bitlen += 16;
360*00b67f09SDavid van Moolenbroek 			} else if ((c & 0xff) == 0xff) {
361*00b67f09SDavid van Moolenbroek 				/* Lower octet is 0xff. */
362*00b67f09SDavid van Moolenbroek 				bitbuf = (bitbuf << 16) |
363*00b67f09SDavid van Moolenbroek 					(RACE_ESCAPE << 8) | RACE_ESCAPE_2ND;
364*00b67f09SDavid van Moolenbroek 				bitlen += 16;
365*00b67f09SDavid van Moolenbroek 			} else {
366*00b67f09SDavid van Moolenbroek 				/* Just output lower octet. */
367*00b67f09SDavid van Moolenbroek 				bitbuf = (bitbuf << 8) | (c & 0xff);
368*00b67f09SDavid van Moolenbroek 				bitlen += 8;
369*00b67f09SDavid van Moolenbroek 			}
370*00b67f09SDavid van Moolenbroek 			p++;
371*00b67f09SDavid van Moolenbroek 		}
372*00b67f09SDavid van Moolenbroek 
373*00b67f09SDavid van Moolenbroek 		/*
374*00b67f09SDavid van Moolenbroek 		 * Output bits in 'bitbuf' in 5-bit unit.
375*00b67f09SDavid van Moolenbroek 		 */
376*00b67f09SDavid van Moolenbroek 		while (bitlen >= 5) {
377*00b67f09SDavid van Moolenbroek 			int x;
378*00b67f09SDavid van Moolenbroek 
379*00b67f09SDavid van Moolenbroek 			/* Get top 5 bits. */
380*00b67f09SDavid van Moolenbroek 			x = (bitbuf >> (bitlen - 5)) & 0x1f;
381*00b67f09SDavid van Moolenbroek 			bitlen -= 5;
382*00b67f09SDavid van Moolenbroek 
383*00b67f09SDavid van Moolenbroek 			/* Encode. */
384*00b67f09SDavid van Moolenbroek 			if (x < 26)
385*00b67f09SDavid van Moolenbroek 				x += 'a';
386*00b67f09SDavid van Moolenbroek 			else
387*00b67f09SDavid van Moolenbroek 				x = (x - 26) + '2';
388*00b67f09SDavid van Moolenbroek 
389*00b67f09SDavid van Moolenbroek 			if (tolen < 1)
390*00b67f09SDavid van Moolenbroek 				return (idn_buffer_overflow);
391*00b67f09SDavid van Moolenbroek 
392*00b67f09SDavid van Moolenbroek 			*to++ = x;
393*00b67f09SDavid van Moolenbroek 			tolen--;
394*00b67f09SDavid van Moolenbroek 		}
395*00b67f09SDavid van Moolenbroek 	}
396*00b67f09SDavid van Moolenbroek 
397*00b67f09SDavid van Moolenbroek 	if (tolen <= 0)
398*00b67f09SDavid van Moolenbroek 		return (idn_buffer_overflow);
399*00b67f09SDavid van Moolenbroek 
400*00b67f09SDavid van Moolenbroek 	*to = '\0';
401*00b67f09SDavid van Moolenbroek 	return (idn_success);
402*00b67f09SDavid van Moolenbroek }
403*00b67f09SDavid van Moolenbroek 
404*00b67f09SDavid van Moolenbroek static int
get_compress_mode(unsigned short * p)405*00b67f09SDavid van Moolenbroek get_compress_mode(unsigned short *p) {
406*00b67f09SDavid van Moolenbroek 	int zero = 0;
407*00b67f09SDavid van Moolenbroek 	unsigned int upper = 0;
408*00b67f09SDavid van Moolenbroek 	unsigned short *modepos = p - 1;
409*00b67f09SDavid van Moolenbroek 
410*00b67f09SDavid van Moolenbroek 	while (*p != '\0') {
411*00b67f09SDavid van Moolenbroek 		unsigned int hi = *p++ & 0xff00;
412*00b67f09SDavid van Moolenbroek 
413*00b67f09SDavid van Moolenbroek 		if (hi == 0) {
414*00b67f09SDavid van Moolenbroek 			zero++;
415*00b67f09SDavid van Moolenbroek 		} else if (hi == upper) {
416*00b67f09SDavid van Moolenbroek 			;
417*00b67f09SDavid van Moolenbroek 		} else if (upper == 0) {
418*00b67f09SDavid van Moolenbroek 			upper = hi;
419*00b67f09SDavid van Moolenbroek 		} else {
420*00b67f09SDavid van Moolenbroek 			*modepos = RACE_2OCTET_MODE;
421*00b67f09SDavid van Moolenbroek 			return (compress_none);
422*00b67f09SDavid van Moolenbroek 		}
423*00b67f09SDavid van Moolenbroek 	}
424*00b67f09SDavid van Moolenbroek 	*modepos = upper >> 8;
425*00b67f09SDavid van Moolenbroek 	if (upper > 0 && zero > 0)
426*00b67f09SDavid van Moolenbroek 		return (compress_two);
427*00b67f09SDavid van Moolenbroek 	else
428*00b67f09SDavid van Moolenbroek 		return (compress_one);
429*00b67f09SDavid van Moolenbroek }
430