xref: /minix3/external/bsd/bind/dist/contrib/idn/idnkit-1.0-src/lib/punycode.c (revision 00b67f09dd46474d133c95011a48590a8e8f94c7)
1*00b67f09SDavid van Moolenbroek /*	$NetBSD: punycode.c,v 1.4 2014/12/10 04:37:55 christos Exp $	*/
2*00b67f09SDavid van Moolenbroek 
3*00b67f09SDavid van Moolenbroek #ifndef lint
4*00b67f09SDavid van Moolenbroek static char *rcsid = "Id: punycode.c,v 1.1 2003/06/04 00:26:06 marka Exp ";
5*00b67f09SDavid van Moolenbroek #endif
6*00b67f09SDavid van Moolenbroek 
7*00b67f09SDavid van Moolenbroek /*
8*00b67f09SDavid van Moolenbroek  * Copyright (c) 2001,2002 Japan Network Information Center.
9*00b67f09SDavid van Moolenbroek  * All rights reserved.
10*00b67f09SDavid van Moolenbroek  *
11*00b67f09SDavid van Moolenbroek  * By using this file, you agree to the terms and conditions set forth bellow.
12*00b67f09SDavid van Moolenbroek  *
13*00b67f09SDavid van Moolenbroek  * 			LICENSE TERMS AND CONDITIONS
14*00b67f09SDavid van Moolenbroek  *
15*00b67f09SDavid van Moolenbroek  * The following License Terms and Conditions apply, unless a different
16*00b67f09SDavid van Moolenbroek  * license is obtained from Japan Network Information Center ("JPNIC"),
17*00b67f09SDavid van Moolenbroek  * a Japanese association, Kokusai-Kougyou-Kanda Bldg 6F, 2-3-4 Uchi-Kanda,
18*00b67f09SDavid van Moolenbroek  * Chiyoda-ku, Tokyo 101-0047, Japan.
19*00b67f09SDavid van Moolenbroek  *
20*00b67f09SDavid van Moolenbroek  * 1. Use, Modification and Redistribution (including distribution of any
21*00b67f09SDavid van Moolenbroek  *    modified or derived work) in source and/or binary forms is permitted
22*00b67f09SDavid van Moolenbroek  *    under this License Terms and Conditions.
23*00b67f09SDavid van Moolenbroek  *
24*00b67f09SDavid van Moolenbroek  * 2. Redistribution of source code must retain the copyright notices as they
25*00b67f09SDavid van Moolenbroek  *    appear in each source code file, this License Terms and Conditions.
26*00b67f09SDavid van Moolenbroek  *
27*00b67f09SDavid van Moolenbroek  * 3. Redistribution in binary form must reproduce the Copyright Notice,
28*00b67f09SDavid van Moolenbroek  *    this License Terms and Conditions, in the documentation and/or other
29*00b67f09SDavid van Moolenbroek  *    materials provided with the distribution.  For the purposes of binary
30*00b67f09SDavid van Moolenbroek  *    distribution the "Copyright Notice" refers to the following language:
31*00b67f09SDavid van Moolenbroek  *    "Copyright (c) 2000-2002 Japan Network Information Center.  All rights reserved."
32*00b67f09SDavid van Moolenbroek  *
33*00b67f09SDavid van Moolenbroek  * 4. The name of JPNIC may not be used to endorse or promote products
34*00b67f09SDavid van Moolenbroek  *    derived from this Software without specific prior written approval of
35*00b67f09SDavid van Moolenbroek  *    JPNIC.
36*00b67f09SDavid van Moolenbroek  *
37*00b67f09SDavid van Moolenbroek  * 5. Disclaimer/Limitation of Liability: THIS SOFTWARE IS PROVIDED BY JPNIC
38*00b67f09SDavid van Moolenbroek  *    "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
39*00b67f09SDavid van Moolenbroek  *    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A
40*00b67f09SDavid van Moolenbroek  *    PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL JPNIC BE LIABLE
41*00b67f09SDavid van Moolenbroek  *    FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
42*00b67f09SDavid van Moolenbroek  *    CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
43*00b67f09SDavid van Moolenbroek  *    SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR
44*00b67f09SDavid van Moolenbroek  *    BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY,
45*00b67f09SDavid van Moolenbroek  *    WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR
46*00b67f09SDavid van Moolenbroek  *    OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
47*00b67f09SDavid van Moolenbroek  *    ADVISED OF THE POSSIBILITY OF SUCH DAMAGES.
48*00b67f09SDavid van Moolenbroek  */
49*00b67f09SDavid van Moolenbroek 
50*00b67f09SDavid van Moolenbroek #include <config.h>
51*00b67f09SDavid van Moolenbroek 
52*00b67f09SDavid van Moolenbroek #include <stddef.h>
53*00b67f09SDavid van Moolenbroek #include <stdlib.h>
54*00b67f09SDavid van Moolenbroek #include <string.h>
55*00b67f09SDavid van Moolenbroek 
56*00b67f09SDavid van Moolenbroek #include <idn/result.h>
57*00b67f09SDavid van Moolenbroek #include <idn/assert.h>
58*00b67f09SDavid van Moolenbroek #include <idn/logmacro.h>
59*00b67f09SDavid van Moolenbroek #include <idn/converter.h>
60*00b67f09SDavid van Moolenbroek #include <idn/ucs4.h>
61*00b67f09SDavid van Moolenbroek #include <idn/debug.h>
62*00b67f09SDavid van Moolenbroek #include <idn/punycode.h>
63*00b67f09SDavid van Moolenbroek #include <idn/util.h>
64*00b67f09SDavid van Moolenbroek 
65*00b67f09SDavid van Moolenbroek /*
66*00b67f09SDavid van Moolenbroek  * Although draft-ietf-idn-punycode-00.txt doesn't specify the ACE
67*00b67f09SDavid van Moolenbroek  * signature, we have to choose one.  In order to prevent the converted
68*00b67f09SDavid van Moolenbroek  * name from beginning with a hyphen, we should choose a prefix rather
69*00b67f09SDavid van Moolenbroek  * than a suffix.
70*00b67f09SDavid van Moolenbroek  */
71*00b67f09SDavid van Moolenbroek #ifndef IDN_PUNYCODE_PREFIX
72*00b67f09SDavid van Moolenbroek #define IDN_PUNYCODE_PREFIX	"xn--"
73*00b67f09SDavid van Moolenbroek #endif
74*00b67f09SDavid van Moolenbroek 
75*00b67f09SDavid van Moolenbroek #define INVALID_UCS	0x80000000
76*00b67f09SDavid van Moolenbroek #define MAX_UCS		0x10FFFF
77*00b67f09SDavid van Moolenbroek 
78*00b67f09SDavid van Moolenbroek /*
79*00b67f09SDavid van Moolenbroek  * As the draft states, it is possible that `delta' may overflow during
80*00b67f09SDavid van Moolenbroek  * the encoding.  The upper bound of 'delta' is:
81*00b67f09SDavid van Moolenbroek  *   <# of chars. of input string> + <max. difference in code point> *
82*00b67f09SDavid van Moolenbroek  *   <# of chars. of input string + 1>
83*00b67f09SDavid van Moolenbroek  * For this value not to be greater than 0xffffffff (since the calculation
84*00b67f09SDavid van Moolenbroek  * is done using unsigned long, which is at least 32bit long), the maxmum
85*00b67f09SDavid van Moolenbroek  * input string size is about 3850 characters, which is long enough for
86*00b67f09SDavid van Moolenbroek  * a domain label...
87*00b67f09SDavid van Moolenbroek  */
88*00b67f09SDavid van Moolenbroek #define PUNYCODE_MAXINPUT	3800
89*00b67f09SDavid van Moolenbroek 
90*00b67f09SDavid van Moolenbroek /*
91*00b67f09SDavid van Moolenbroek  * Parameters.
92*00b67f09SDavid van Moolenbroek  */
93*00b67f09SDavid van Moolenbroek #define PUNYCODE_BASE		36
94*00b67f09SDavid van Moolenbroek #define PUNYCODE_TMIN		1
95*00b67f09SDavid van Moolenbroek #define PUNYCODE_TMAX		26
96*00b67f09SDavid van Moolenbroek #define PUNYCODE_SKEW		38
97*00b67f09SDavid van Moolenbroek #define PUNYCODE_DAMP		700
98*00b67f09SDavid van Moolenbroek #define PUNYCODE_INITIAL_BIAS	72
99*00b67f09SDavid van Moolenbroek #define PUNYCODE_INITIAL_N	0x80
100*00b67f09SDavid van Moolenbroek 
101*00b67f09SDavid van Moolenbroek static int		punycode_getwc(const char *s, size_t len,
102*00b67f09SDavid van Moolenbroek 				      int bias, unsigned long *vp);
103*00b67f09SDavid van Moolenbroek static int		punycode_putwc(char *s, size_t len,
104*00b67f09SDavid van Moolenbroek 				      unsigned long delta, int bias);
105*00b67f09SDavid van Moolenbroek static int		punycode_update_bias(unsigned long delta,
106*00b67f09SDavid van Moolenbroek 					    size_t npoints, int first);
107*00b67f09SDavid van Moolenbroek 
108*00b67f09SDavid van Moolenbroek idn_result_t
idn__punycode_decode(idn_converter_t ctx,void * privdata,const char * from,unsigned long * to,size_t tolen)109*00b67f09SDavid van Moolenbroek idn__punycode_decode(idn_converter_t ctx, void *privdata,
110*00b67f09SDavid van Moolenbroek 		    const char *from, unsigned long *to, size_t tolen) {
111*00b67f09SDavid van Moolenbroek 	unsigned long *to_org = to;
112*00b67f09SDavid van Moolenbroek 	unsigned long c, idx;
113*00b67f09SDavid van Moolenbroek 	size_t prefixlen = strlen(IDN_PUNYCODE_PREFIX);
114*00b67f09SDavid van Moolenbroek 	size_t fromlen;
115*00b67f09SDavid van Moolenbroek 	size_t uidx, fidx, ucslen;
116*00b67f09SDavid van Moolenbroek 	int first, bias;
117*00b67f09SDavid van Moolenbroek 	idn_result_t r;
118*00b67f09SDavid van Moolenbroek 
119*00b67f09SDavid van Moolenbroek 	assert(ctx != NULL);
120*00b67f09SDavid van Moolenbroek 
121*00b67f09SDavid van Moolenbroek 	TRACE(("idn__punycode_decode(from=\"%s\", tolen=%d)\n",
122*00b67f09SDavid van Moolenbroek 	       idn__debug_xstring(from, 50), (int)tolen));
123*00b67f09SDavid van Moolenbroek 
124*00b67f09SDavid van Moolenbroek 	if (!idn__util_asciihaveaceprefix(from, IDN_PUNYCODE_PREFIX)) {
125*00b67f09SDavid van Moolenbroek 		if (*from == '\0') {
126*00b67f09SDavid van Moolenbroek 			r = idn_ucs4_utf8toucs4(from, to, tolen);
127*00b67f09SDavid van Moolenbroek 			goto ret;
128*00b67f09SDavid van Moolenbroek 		}
129*00b67f09SDavid van Moolenbroek 		r = idn_invalid_encoding;
130*00b67f09SDavid van Moolenbroek 		goto ret;
131*00b67f09SDavid van Moolenbroek 	}
132*00b67f09SDavid van Moolenbroek 	from += prefixlen;
133*00b67f09SDavid van Moolenbroek 	fromlen = strlen(from);
134*00b67f09SDavid van Moolenbroek 
135*00b67f09SDavid van Moolenbroek 	/*
136*00b67f09SDavid van Moolenbroek 	 * Find the last delimiter, and copy the characters
137*00b67f09SDavid van Moolenbroek 	 * before it verbatim.
138*00b67f09SDavid van Moolenbroek 	 */
139*00b67f09SDavid van Moolenbroek 	ucslen = 0;
140*00b67f09SDavid van Moolenbroek 	for (fidx = fromlen; fidx > 0; fidx--) {
141*00b67f09SDavid van Moolenbroek 		if (from[fidx - 1] == '-') {
142*00b67f09SDavid van Moolenbroek 			if (tolen < fidx) {
143*00b67f09SDavid van Moolenbroek 				r = idn_buffer_overflow;
144*00b67f09SDavid van Moolenbroek 				goto ret;
145*00b67f09SDavid van Moolenbroek 			}
146*00b67f09SDavid van Moolenbroek 			for (uidx = 0; uidx < fidx - 1; uidx++) {
147*00b67f09SDavid van Moolenbroek 				to[uidx] = from[uidx];
148*00b67f09SDavid van Moolenbroek 			}
149*00b67f09SDavid van Moolenbroek 			ucslen = uidx;
150*00b67f09SDavid van Moolenbroek 			break;
151*00b67f09SDavid van Moolenbroek 		}
152*00b67f09SDavid van Moolenbroek 	}
153*00b67f09SDavid van Moolenbroek 
154*00b67f09SDavid van Moolenbroek 	first = 1;
155*00b67f09SDavid van Moolenbroek 	bias = PUNYCODE_INITIAL_BIAS;
156*00b67f09SDavid van Moolenbroek 	c = PUNYCODE_INITIAL_N;
157*00b67f09SDavid van Moolenbroek 	idx = 0;
158*00b67f09SDavid van Moolenbroek 	while (fidx < fromlen) {
159*00b67f09SDavid van Moolenbroek 		int len;
160*00b67f09SDavid van Moolenbroek 		unsigned long delta;
161*00b67f09SDavid van Moolenbroek 		int i;
162*00b67f09SDavid van Moolenbroek 
163*00b67f09SDavid van Moolenbroek 		len = punycode_getwc(from + fidx, fromlen - fidx, bias, &delta);
164*00b67f09SDavid van Moolenbroek 		if (len == 0) {
165*00b67f09SDavid van Moolenbroek 			r = idn_invalid_encoding;
166*00b67f09SDavid van Moolenbroek 			goto ret;
167*00b67f09SDavid van Moolenbroek 		}
168*00b67f09SDavid van Moolenbroek 		fidx += len;
169*00b67f09SDavid van Moolenbroek 
170*00b67f09SDavid van Moolenbroek 		bias = punycode_update_bias(delta, ucslen + 1, first);
171*00b67f09SDavid van Moolenbroek 		first = 0;
172*00b67f09SDavid van Moolenbroek 		idx += delta;
173*00b67f09SDavid van Moolenbroek 		c += idx / (ucslen + 1);
174*00b67f09SDavid van Moolenbroek 		uidx = idx % (ucslen + 1);
175*00b67f09SDavid van Moolenbroek 
176*00b67f09SDavid van Moolenbroek 		/* Insert 'c' at uidx. */
177*00b67f09SDavid van Moolenbroek 		if (tolen-- <= 0) {
178*00b67f09SDavid van Moolenbroek 			r = idn_buffer_overflow;
179*00b67f09SDavid van Moolenbroek 			goto ret;
180*00b67f09SDavid van Moolenbroek 		}
181*00b67f09SDavid van Moolenbroek 		for (i = ucslen; i > uidx; i--)
182*00b67f09SDavid van Moolenbroek 			to[i] = to[i - 1];
183*00b67f09SDavid van Moolenbroek 		to[uidx] = c;
184*00b67f09SDavid van Moolenbroek 
185*00b67f09SDavid van Moolenbroek 		ucslen++;
186*00b67f09SDavid van Moolenbroek 		idx = uidx + 1;
187*00b67f09SDavid van Moolenbroek 	}
188*00b67f09SDavid van Moolenbroek 
189*00b67f09SDavid van Moolenbroek 	/* Terminate with NUL. */
190*00b67f09SDavid van Moolenbroek 	if (tolen <= 0) {
191*00b67f09SDavid van Moolenbroek 		r = idn_buffer_overflow;
192*00b67f09SDavid van Moolenbroek 		goto ret;
193*00b67f09SDavid van Moolenbroek 	}
194*00b67f09SDavid van Moolenbroek 	to[ucslen] = '\0';
195*00b67f09SDavid van Moolenbroek 	r = idn_success;
196*00b67f09SDavid van Moolenbroek 
197*00b67f09SDavid van Moolenbroek ret:
198*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
199*00b67f09SDavid van Moolenbroek 		TRACE(("idn__punycode_decode(): succcess (to=\"%s\")\n",
200*00b67f09SDavid van Moolenbroek 		       idn__debug_ucs4xstring(to_org, 50)));
201*00b67f09SDavid van Moolenbroek 	} else {
202*00b67f09SDavid van Moolenbroek 		TRACE(("idn__punycode_decode(): %s\n", idn_result_tostring(r)));
203*00b67f09SDavid van Moolenbroek 	}
204*00b67f09SDavid van Moolenbroek 	return (r);
205*00b67f09SDavid van Moolenbroek }
206*00b67f09SDavid van Moolenbroek 
207*00b67f09SDavid van Moolenbroek idn_result_t
idn__punycode_encode(idn_converter_t ctx,void * privdata,const unsigned long * from,char * to,size_t tolen)208*00b67f09SDavid van Moolenbroek idn__punycode_encode(idn_converter_t ctx, void *privdata,
209*00b67f09SDavid van Moolenbroek 		    const unsigned long *from, char *to, size_t tolen) {
210*00b67f09SDavid van Moolenbroek 	char *to_org = to;
211*00b67f09SDavid van Moolenbroek 	unsigned long cur_code, next_code, delta;
212*00b67f09SDavid van Moolenbroek 	size_t prefixlen = strlen(IDN_PUNYCODE_PREFIX);
213*00b67f09SDavid van Moolenbroek 	size_t fromlen;
214*00b67f09SDavid van Moolenbroek 	size_t ucsdone;
215*00b67f09SDavid van Moolenbroek 	size_t toidx;
216*00b67f09SDavid van Moolenbroek 	int uidx, bias, first;
217*00b67f09SDavid van Moolenbroek 	idn_result_t r;
218*00b67f09SDavid van Moolenbroek 
219*00b67f09SDavid van Moolenbroek 	assert(ctx != NULL);
220*00b67f09SDavid van Moolenbroek 
221*00b67f09SDavid van Moolenbroek 	TRACE(("idn__punycode_encode(from=\"%s\", tolen=%d)\n",
222*00b67f09SDavid van Moolenbroek 	       idn__debug_ucs4xstring(from, 50), (int)tolen));
223*00b67f09SDavid van Moolenbroek 
224*00b67f09SDavid van Moolenbroek 	if (*from == '\0') {
225*00b67f09SDavid van Moolenbroek 		r = idn_ucs4_ucs4toutf8(from, to, tolen);
226*00b67f09SDavid van Moolenbroek 		goto ret;
227*00b67f09SDavid van Moolenbroek 	} else if (idn__util_ucs4haveaceprefix(from, IDN_PUNYCODE_PREFIX)) {
228*00b67f09SDavid van Moolenbroek 		r = idn_prohibited;
229*00b67f09SDavid van Moolenbroek 		goto ret;
230*00b67f09SDavid van Moolenbroek 	}
231*00b67f09SDavid van Moolenbroek 
232*00b67f09SDavid van Moolenbroek 	if (tolen < prefixlen) {
233*00b67f09SDavid van Moolenbroek 		r = idn_buffer_overflow;
234*00b67f09SDavid van Moolenbroek 		goto ret;
235*00b67f09SDavid van Moolenbroek 	}
236*00b67f09SDavid van Moolenbroek 	memcpy(to, IDN_PUNYCODE_PREFIX, prefixlen);
237*00b67f09SDavid van Moolenbroek 	to += prefixlen;
238*00b67f09SDavid van Moolenbroek 	tolen -= prefixlen;
239*00b67f09SDavid van Moolenbroek 
240*00b67f09SDavid van Moolenbroek 	fromlen = idn_ucs4_strlen(from);
241*00b67f09SDavid van Moolenbroek 
242*00b67f09SDavid van Moolenbroek 	/*
243*00b67f09SDavid van Moolenbroek 	 * If the input string is too long (actually too long to be sane),
244*00b67f09SDavid van Moolenbroek 	 * return failure in order to prevent possible overflow.
245*00b67f09SDavid van Moolenbroek 	 */
246*00b67f09SDavid van Moolenbroek 	if (fromlen > PUNYCODE_MAXINPUT) {
247*00b67f09SDavid van Moolenbroek 		ERROR(("idn__punycode_encode(): "
248*00b67f09SDavid van Moolenbroek 		       "the input string is too long to convert Punycode\n",
249*00b67f09SDavid van Moolenbroek 		       idn__debug_ucs4xstring(from, 50)));
250*00b67f09SDavid van Moolenbroek 		r = idn_failure;
251*00b67f09SDavid van Moolenbroek 		goto ret;
252*00b67f09SDavid van Moolenbroek 	}
253*00b67f09SDavid van Moolenbroek 
254*00b67f09SDavid van Moolenbroek 	ucsdone = 0;	/* number of characters processed */
255*00b67f09SDavid van Moolenbroek 	toidx = 0;
256*00b67f09SDavid van Moolenbroek 
257*00b67f09SDavid van Moolenbroek 	/*
258*00b67f09SDavid van Moolenbroek 	 * First, pick up basic code points and copy them to 'to'.
259*00b67f09SDavid van Moolenbroek 	 */
260*00b67f09SDavid van Moolenbroek 	for (uidx = 0; uidx < fromlen; uidx++) {
261*00b67f09SDavid van Moolenbroek 		if (from[uidx] < 0x80) {
262*00b67f09SDavid van Moolenbroek 			if (toidx >= tolen) {
263*00b67f09SDavid van Moolenbroek 				r = idn_buffer_overflow;
264*00b67f09SDavid van Moolenbroek 				goto ret;
265*00b67f09SDavid van Moolenbroek 			}
266*00b67f09SDavid van Moolenbroek 			to[toidx++] = from[uidx];
267*00b67f09SDavid van Moolenbroek 			ucsdone++;
268*00b67f09SDavid van Moolenbroek 		}
269*00b67f09SDavid van Moolenbroek 	}
270*00b67f09SDavid van Moolenbroek 
271*00b67f09SDavid van Moolenbroek 	/*
272*00b67f09SDavid van Moolenbroek 	 * If there are any basic code points, output a delimiter
273*00b67f09SDavid van Moolenbroek 	 * (hyphen-minus).
274*00b67f09SDavid van Moolenbroek 	 */
275*00b67f09SDavid van Moolenbroek 	if (toidx > 0) {
276*00b67f09SDavid van Moolenbroek 		if (toidx >= tolen) {
277*00b67f09SDavid van Moolenbroek 			r = idn_buffer_overflow;
278*00b67f09SDavid van Moolenbroek 			goto ret;
279*00b67f09SDavid van Moolenbroek 		}
280*00b67f09SDavid van Moolenbroek 		to[toidx++] = '-';
281*00b67f09SDavid van Moolenbroek 		to += toidx;
282*00b67f09SDavid van Moolenbroek 		tolen -= toidx;
283*00b67f09SDavid van Moolenbroek 	}
284*00b67f09SDavid van Moolenbroek 
285*00b67f09SDavid van Moolenbroek 	/*
286*00b67f09SDavid van Moolenbroek 	 * Then encode non-basic characters.
287*00b67f09SDavid van Moolenbroek 	 */
288*00b67f09SDavid van Moolenbroek 	first = 1;
289*00b67f09SDavid van Moolenbroek 	cur_code = PUNYCODE_INITIAL_N;
290*00b67f09SDavid van Moolenbroek 	bias = PUNYCODE_INITIAL_BIAS;
291*00b67f09SDavid van Moolenbroek 	delta = 0;
292*00b67f09SDavid van Moolenbroek 	while (ucsdone < fromlen) {
293*00b67f09SDavid van Moolenbroek 		int limit = -1, rest;
294*00b67f09SDavid van Moolenbroek 
295*00b67f09SDavid van Moolenbroek 		/*
296*00b67f09SDavid van Moolenbroek 		 * Find the smallest code point equal to or greater
297*00b67f09SDavid van Moolenbroek 		 * than 'cur_code'.  Also remember the index of the
298*00b67f09SDavid van Moolenbroek 		 * last occurence of the code point.
299*00b67f09SDavid van Moolenbroek 		 */
300*00b67f09SDavid van Moolenbroek 		for (next_code = MAX_UCS, uidx = fromlen - 1;
301*00b67f09SDavid van Moolenbroek 		     uidx >= 0; uidx--) {
302*00b67f09SDavid van Moolenbroek 			if (from[uidx] >= cur_code && from[uidx] < next_code) {
303*00b67f09SDavid van Moolenbroek 				next_code = from[uidx];
304*00b67f09SDavid van Moolenbroek 				limit = uidx;
305*00b67f09SDavid van Moolenbroek 			}
306*00b67f09SDavid van Moolenbroek 		}
307*00b67f09SDavid van Moolenbroek 		/* There must be such code point. */
308*00b67f09SDavid van Moolenbroek 		assert(limit >= 0);
309*00b67f09SDavid van Moolenbroek 
310*00b67f09SDavid van Moolenbroek 		delta += (next_code - cur_code) * (ucsdone + 1);
311*00b67f09SDavid van Moolenbroek 		cur_code = next_code;
312*00b67f09SDavid van Moolenbroek 
313*00b67f09SDavid van Moolenbroek 		/*
314*00b67f09SDavid van Moolenbroek 		 * Scan the input string again, and encode characters
315*00b67f09SDavid van Moolenbroek 		 * whose code point is 'cur_code'.  Use 'limit' to avoid
316*00b67f09SDavid van Moolenbroek 		 * unnecessary scan.
317*00b67f09SDavid van Moolenbroek 		 */
318*00b67f09SDavid van Moolenbroek 		for (uidx = 0, rest = ucsdone; uidx <= limit; uidx++) {
319*00b67f09SDavid van Moolenbroek 			if (from[uidx] < cur_code) {
320*00b67f09SDavid van Moolenbroek 				delta++;
321*00b67f09SDavid van Moolenbroek 				rest--;
322*00b67f09SDavid van Moolenbroek 			} else if (from[uidx] == cur_code) {
323*00b67f09SDavid van Moolenbroek 				int sz = punycode_putwc(to, tolen, delta, bias);
324*00b67f09SDavid van Moolenbroek 				if (sz == 0) {
325*00b67f09SDavid van Moolenbroek 					r = idn_buffer_overflow;
326*00b67f09SDavid van Moolenbroek 					goto ret;
327*00b67f09SDavid van Moolenbroek 				}
328*00b67f09SDavid van Moolenbroek 				to += sz;
329*00b67f09SDavid van Moolenbroek 				tolen -= sz;
330*00b67f09SDavid van Moolenbroek 				ucsdone++;
331*00b67f09SDavid van Moolenbroek 				bias = punycode_update_bias(delta, ucsdone,
332*00b67f09SDavid van Moolenbroek 							   first);
333*00b67f09SDavid van Moolenbroek 				delta = 0;
334*00b67f09SDavid van Moolenbroek 				first = 0;
335*00b67f09SDavid van Moolenbroek 			}
336*00b67f09SDavid van Moolenbroek 		}
337*00b67f09SDavid van Moolenbroek 		delta += rest + 1;
338*00b67f09SDavid van Moolenbroek 		cur_code++;
339*00b67f09SDavid van Moolenbroek 	}
340*00b67f09SDavid van Moolenbroek 
341*00b67f09SDavid van Moolenbroek 	/*
342*00b67f09SDavid van Moolenbroek 	 * Terminate with NUL.
343*00b67f09SDavid van Moolenbroek 	 */
344*00b67f09SDavid van Moolenbroek 	if (tolen <= 0) {
345*00b67f09SDavid van Moolenbroek 		r = idn_buffer_overflow;
346*00b67f09SDavid van Moolenbroek 		goto ret;
347*00b67f09SDavid van Moolenbroek 	}
348*00b67f09SDavid van Moolenbroek 	*to = '\0';
349*00b67f09SDavid van Moolenbroek 	r = idn_success;
350*00b67f09SDavid van Moolenbroek 
351*00b67f09SDavid van Moolenbroek ret:
352*00b67f09SDavid van Moolenbroek 	if (r == idn_success) {
353*00b67f09SDavid van Moolenbroek 		TRACE(("idn__punycode_encode(): succcess (to=\"%s\")\n",
354*00b67f09SDavid van Moolenbroek 		       idn__debug_xstring(to_org, 50)));
355*00b67f09SDavid van Moolenbroek 	} else {
356*00b67f09SDavid van Moolenbroek 		TRACE(("idn__punycode_encode(): %s\n", idn_result_tostring(r)));
357*00b67f09SDavid van Moolenbroek 	}
358*00b67f09SDavid van Moolenbroek 	return (r);
359*00b67f09SDavid van Moolenbroek }
360*00b67f09SDavid van Moolenbroek 
361*00b67f09SDavid van Moolenbroek static int
punycode_getwc(const char * s,size_t len,int bias,unsigned long * vp)362*00b67f09SDavid van Moolenbroek punycode_getwc(const char *s, size_t len, int bias, unsigned long *vp) {
363*00b67f09SDavid van Moolenbroek 	size_t orglen = len;
364*00b67f09SDavid van Moolenbroek 	unsigned long v = 0, w = 1;
365*00b67f09SDavid van Moolenbroek 	int k;
366*00b67f09SDavid van Moolenbroek 
367*00b67f09SDavid van Moolenbroek 	for (k = PUNYCODE_BASE - bias; len > 0; k += PUNYCODE_BASE) {
368*00b67f09SDavid van Moolenbroek 		int c = *s++;
369*00b67f09SDavid van Moolenbroek 		int t = (k < PUNYCODE_TMIN) ? PUNYCODE_TMIN :
370*00b67f09SDavid van Moolenbroek 			(k > PUNYCODE_TMAX) ? PUNYCODE_TMAX : k;
371*00b67f09SDavid van Moolenbroek 
372*00b67f09SDavid van Moolenbroek 		len--;
373*00b67f09SDavid van Moolenbroek 		if ('a' <= c && c <= 'z')
374*00b67f09SDavid van Moolenbroek 			c = c - 'a';
375*00b67f09SDavid van Moolenbroek 		else if ('A' <= c && c <= 'Z')
376*00b67f09SDavid van Moolenbroek 			c = c - 'A';
377*00b67f09SDavid van Moolenbroek 		else if ('0' <= c && c <= '9')
378*00b67f09SDavid van Moolenbroek 			c = c - '0' + 26;
379*00b67f09SDavid van Moolenbroek 		else
380*00b67f09SDavid van Moolenbroek 			c = -1;
381*00b67f09SDavid van Moolenbroek 
382*00b67f09SDavid van Moolenbroek 		if (c < 0)
383*00b67f09SDavid van Moolenbroek 			return (0);	/* invalid character */
384*00b67f09SDavid van Moolenbroek 
385*00b67f09SDavid van Moolenbroek 		v += c * w;
386*00b67f09SDavid van Moolenbroek 
387*00b67f09SDavid van Moolenbroek 		if (c < t) {
388*00b67f09SDavid van Moolenbroek 			*vp = v;
389*00b67f09SDavid van Moolenbroek 			return (orglen - len);
390*00b67f09SDavid van Moolenbroek 		}
391*00b67f09SDavid van Moolenbroek 
392*00b67f09SDavid van Moolenbroek 		w *= (PUNYCODE_BASE - t);
393*00b67f09SDavid van Moolenbroek 	}
394*00b67f09SDavid van Moolenbroek 
395*00b67f09SDavid van Moolenbroek 	return (0);	/* final character missing */
396*00b67f09SDavid van Moolenbroek }
397*00b67f09SDavid van Moolenbroek 
398*00b67f09SDavid van Moolenbroek static int
punycode_putwc(char * s,size_t len,unsigned long delta,int bias)399*00b67f09SDavid van Moolenbroek punycode_putwc(char *s, size_t len, unsigned long delta, int bias) {
400*00b67f09SDavid van Moolenbroek 	const char *punycode_base36 = "abcdefghijklmnopqrstuvwxyz0123456789";
401*00b67f09SDavid van Moolenbroek 	int k;
402*00b67f09SDavid van Moolenbroek 	char *sorg = s;
403*00b67f09SDavid van Moolenbroek 
404*00b67f09SDavid van Moolenbroek 	for (k = PUNYCODE_BASE - bias; 1; k += PUNYCODE_BASE) {
405*00b67f09SDavid van Moolenbroek 		int t = (k < PUNYCODE_TMIN) ? PUNYCODE_TMIN :
406*00b67f09SDavid van Moolenbroek 			(k > PUNYCODE_TMAX) ? PUNYCODE_TMAX : k;
407*00b67f09SDavid van Moolenbroek 
408*00b67f09SDavid van Moolenbroek 		if (delta < t)
409*00b67f09SDavid van Moolenbroek 			break;
410*00b67f09SDavid van Moolenbroek 		if (len < 1)
411*00b67f09SDavid van Moolenbroek 			return (0);
412*00b67f09SDavid van Moolenbroek 		*s++ = punycode_base36[t + ((delta - t) % (PUNYCODE_BASE - t))];
413*00b67f09SDavid van Moolenbroek 		len--;
414*00b67f09SDavid van Moolenbroek 		delta = (delta - t) / (PUNYCODE_BASE - t);
415*00b67f09SDavid van Moolenbroek 	}
416*00b67f09SDavid van Moolenbroek 	if (len < 1)
417*00b67f09SDavid van Moolenbroek 		return (0);
418*00b67f09SDavid van Moolenbroek 	*s++ = punycode_base36[delta];
419*00b67f09SDavid van Moolenbroek 	return (s - sorg);
420*00b67f09SDavid van Moolenbroek }
421*00b67f09SDavid van Moolenbroek 
422*00b67f09SDavid van Moolenbroek static int
punycode_update_bias(unsigned long delta,size_t npoints,int first)423*00b67f09SDavid van Moolenbroek punycode_update_bias(unsigned long delta, size_t npoints, int first) {
424*00b67f09SDavid van Moolenbroek 	int k = 0;
425*00b67f09SDavid van Moolenbroek 
426*00b67f09SDavid van Moolenbroek 	delta /= first ? PUNYCODE_DAMP : 2;
427*00b67f09SDavid van Moolenbroek 	delta += delta / npoints;
428*00b67f09SDavid van Moolenbroek 
429*00b67f09SDavid van Moolenbroek 	while (delta > ((PUNYCODE_BASE - PUNYCODE_TMIN) * PUNYCODE_TMAX) / 2) {
430*00b67f09SDavid van Moolenbroek 		delta /= PUNYCODE_BASE - PUNYCODE_TMIN;
431*00b67f09SDavid van Moolenbroek 		k++;
432*00b67f09SDavid van Moolenbroek 	}
433*00b67f09SDavid van Moolenbroek 	return (PUNYCODE_BASE * k +
434*00b67f09SDavid van Moolenbroek 		(((PUNYCODE_BASE - PUNYCODE_TMIN + 1) * delta) /
435*00b67f09SDavid van Moolenbroek 		 (delta + PUNYCODE_SKEW)));
436*00b67f09SDavid van Moolenbroek }
437