libcxx/utils/generate_extended_grapheme_cluster_test.py

*4bdff4beSrobert#!/usr/bin/env python
*4bdff4beSrobert# ===----------------------------------------------------------------------===##
*4bdff4beSrobert#
*4bdff4beSrobert# Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
*4bdff4beSrobert# See https://llvm.org/LICENSE.txt for license information.
*4bdff4beSrobert# SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*4bdff4beSrobert#
*4bdff4beSrobert# ===----------------------------------------------------------------------===##
*4bdff4beSrobert
*4bdff4beSrobert# The code is based on
*4bdff4beSrobert# https://github.com/microsoft/STL/blob/main/tools/unicode_properties_parse/grapheme_break_test_data_gen.py
*4bdff4beSrobert#
*4bdff4beSrobert# Copyright (c) Microsoft Corporation.
*4bdff4beSrobert# SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*4bdff4beSrobert
*4bdff4beSrobertfrom pathlib import Path
*4bdff4beSrobertfrom dataclasses import dataclass, field
*4bdff4beSrobertfrom typing import Optional, TextIO
*4bdff4beSrobertfrom array import array
*4bdff4beSrobertimport sys
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobert@dataclass
*4bdff4beSrobertclass BreakTestItem:
*4bdff4beSrobert    code_points: list[int] = field(default_factory=list)
*4bdff4beSrobert    encoded: str = ""
*4bdff4beSrobert    breaks_utf8: list[int] = field(default_factory=list)
*4bdff4beSrobert    breaks_utf16: list[int] = field(default_factory=list)
*4bdff4beSrobert    breaks_utf32: list[int] = field(default_factory=list)
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertclass CommentLine:
*4bdff4beSrobert    pass
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertclass EOF:
*4bdff4beSrobert    pass
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertdef parseBreakTestLine(input: TextIO) -> Optional[BreakTestItem]:
*4bdff4beSrobert    result = BreakTestItem()
*4bdff4beSrobert    code_point = -1
*4bdff4beSrobert    utf8 = 0
*4bdff4beSrobert    utf16 = 0
*4bdff4beSrobert    utf32 = 0
*4bdff4beSrobert
*4bdff4beSrobert    while True:
*4bdff4beSrobert        c = input.read(1)
*4bdff4beSrobert        if c == "\N{DIVISION SIGN}":
*4bdff4beSrobert            # The line starts with a division sign, don't add it to the output.
*4bdff4beSrobert            if code_point != -1:
*4bdff4beSrobert                result.code_points.append(code_point)
*4bdff4beSrobert                code_point = -1
*4bdff4beSrobert                result.breaks_utf8.append(utf8)
*4bdff4beSrobert                result.breaks_utf16.append(utf16)
*4bdff4beSrobert                result.breaks_utf32.append(utf32)
*4bdff4beSrobert
*4bdff4beSrobert            assert input.read(1).isspace()
*4bdff4beSrobert            continue
*4bdff4beSrobert        if c == "\N{MULTIPLICATION SIGN}":
*4bdff4beSrobert            assert input.read(1).isspace()
*4bdff4beSrobert            continue
*4bdff4beSrobert        if c.isalnum():
*4bdff4beSrobert            while next := input.read(1):
*4bdff4beSrobert                if next.isalnum():
*4bdff4beSrobert                    c += next
*4bdff4beSrobert                else:
*4bdff4beSrobert                    assert next.isspace()
*4bdff4beSrobert                    break
*4bdff4beSrobert            i = int(c, base=16)
*4bdff4beSrobert            if code_point == -1:
*4bdff4beSrobert                code_point = i
*4bdff4beSrobert
*4bdff4beSrobert            result.encoded += f"\\U{i:08x}"
*4bdff4beSrobert            c = chr(i)
*4bdff4beSrobert            utf8 += c.encode().__len__()
*4bdff4beSrobert            # Since we only care about the number of code units the byte order
*4bdff4beSrobert            # doesn't matter. The byte order is specified to avoid the BOM
*4bdff4beSrobert            utf16 += int(c.encode("utf-16-le").__len__() / 2)
*4bdff4beSrobert            utf32 += int(c.encode("utf-32-le").__len__() / 4)
*4bdff4beSrobert            continue
*4bdff4beSrobert        if c == "#":
*4bdff4beSrobert            input.readline()
*4bdff4beSrobert            return result
*4bdff4beSrobert        if c == "\n":
*4bdff4beSrobert            return result
*4bdff4beSrobert        if c == "":
*4bdff4beSrobert            return None
*4bdff4beSrobert        assert False
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertcpp_template = """// -*- C++ -*-
*4bdff4beSrobert//===----------------------------------------------------------------------===//
*4bdff4beSrobert//
*4bdff4beSrobert// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
*4bdff4beSrobert// See https://llvm.org/LICENSE.txt for license information.
*4bdff4beSrobert// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*4bdff4beSrobert//
*4bdff4beSrobert//===----------------------------------------------------------------------===//
*4bdff4beSrobert
*4bdff4beSrobert// WARNING, this entire header is generated by
*4bdff4beSrobert// utiles/generate_extended_grapheme_cluster_test.py
*4bdff4beSrobert// DO NOT MODIFY!
*4bdff4beSrobert
*4bdff4beSrobert// UNICODE, INC. LICENSE AGREEMENT - DATA FILES AND SOFTWARE
*4bdff4beSrobert//
*4bdff4beSrobert// See Terms of Use <https://www.unicode.org/copyright.html>
*4bdff4beSrobert// for definitions of Unicode Inc.'s Data Files and Software.
*4bdff4beSrobert//
*4bdff4beSrobert// NOTICE TO USER: Carefully read the following legal agreement.
*4bdff4beSrobert// BY DOWNLOADING, INSTALLING, COPYING OR OTHERWISE USING UNICODE INC.'S
*4bdff4beSrobert// DATA FILES ("DATA FILES"), AND/OR SOFTWARE ("SOFTWARE"),
*4bdff4beSrobert// YOU UNEQUIVOCALLY ACCEPT, AND AGREE TO BE BOUND BY, ALL OF THE
*4bdff4beSrobert// TERMS AND CONDITIONS OF THIS AGREEMENT.
*4bdff4beSrobert// IF YOU DO NOT AGREE, DO NOT DOWNLOAD, INSTALL, COPY, DISTRIBUTE OR USE
*4bdff4beSrobert// THE DATA FILES OR SOFTWARE.
*4bdff4beSrobert//
*4bdff4beSrobert// COPYRIGHT AND PERMISSION NOTICE
*4bdff4beSrobert//
*4bdff4beSrobert// Copyright (c) 1991-2022 Unicode, Inc. All rights reserved.
*4bdff4beSrobert// Distributed under the Terms of Use in https://www.unicode.org/copyright.html.
*4bdff4beSrobert//
*4bdff4beSrobert// Permission is hereby granted, free of charge, to any person obtaining
*4bdff4beSrobert// a copy of the Unicode data files and any associated documentation
*4bdff4beSrobert// (the "Data Files") or Unicode software and any associated documentation
*4bdff4beSrobert// (the "Software") to deal in the Data Files or Software
*4bdff4beSrobert// without restriction, including without limitation the rights to use,
*4bdff4beSrobert// copy, modify, merge, publish, distribute, and/or sell copies of
*4bdff4beSrobert// the Data Files or Software, and to permit persons to whom the Data Files
*4bdff4beSrobert// or Software are furnished to do so, provided that either
*4bdff4beSrobert// (a) this copyright and permission notice appear with all copies
*4bdff4beSrobert// of the Data Files or Software, or
*4bdff4beSrobert// (b) this copyright and permission notice appear in associated
*4bdff4beSrobert// Documentation.
*4bdff4beSrobert//
*4bdff4beSrobert// THE DATA FILES AND SOFTWARE ARE PROVIDED "AS IS", WITHOUT WARRANTY OF
*4bdff4beSrobert// ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE
*4bdff4beSrobert// WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
*4bdff4beSrobert// NONINFRINGEMENT OF THIRD PARTY RIGHTS.
*4bdff4beSrobert// IN NO EVENT SHALL THE COPYRIGHT HOLDER OR HOLDERS INCLUDED IN THIS
*4bdff4beSrobert// NOTICE BE LIABLE FOR ANY CLAIM, OR ANY SPECIAL INDIRECT OR CONSEQUENTIAL
*4bdff4beSrobert// DAMAGES, OR ANY DAMAGES WHATSOEVER RESULTING FROM LOSS OF USE,
*4bdff4beSrobert// DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE OR OTHER
*4bdff4beSrobert// TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR
*4bdff4beSrobert// PERFORMANCE OF THE DATA FILES OR SOFTWARE.
*4bdff4beSrobert//
*4bdff4beSrobert// Except as contained in this notice, the name of a copyright holder
*4bdff4beSrobert// shall not be used in advertising or otherwise to promote the sale,
*4bdff4beSrobert// use or other dealings in these Data Files or Software without prior
*4bdff4beSrobert// written authorization of the copyright holder.
*4bdff4beSrobert
*4bdff4beSrobert#ifndef LIBCXX_TEST_STD_UTILITIES_FORMAT_FORMAT_STRING_FORMAT_STRING_STD_EXTENDED_GRAPHEME_CLUSTER_H
*4bdff4beSrobert#define LIBCXX_TEST_STD_UTILITIES_FORMAT_FORMAT_STRING_FORMAT_STRING_STD_EXTENDED_GRAPHEME_CLUSTER_H
*4bdff4beSrobert
*4bdff4beSrobert#include <array>
*4bdff4beSrobert#include <string_view>
*4bdff4beSrobert#include <vector>
*4bdff4beSrobert
*4bdff4beSrobert#include "test_macros.h"
*4bdff4beSrobert
*4bdff4beSroberttemplate <class CharT>
*4bdff4beSrobertstruct data {{
*4bdff4beSrobert  /// The input to parse.
*4bdff4beSrobert  std::basic_string_view<CharT> input;
*4bdff4beSrobert
*4bdff4beSrobert  /// The first code point all extended grapheme clusters in the input.
*4bdff4beSrobert  std::vector<char32_t> code_points;
*4bdff4beSrobert
*4bdff4beSrobert  /// The offset of the last code units of the extended grapheme clusters in the input.
*4bdff4beSrobert  ///
*4bdff4beSrobert  /// The vector has the same number of entries as \\ref code_points.
*4bdff4beSrobert  std::vector<size_t> breaks;
*4bdff4beSrobert}};
*4bdff4beSrobert
*4bdff4beSrobert/// The data for UTF-8.
*4bdff4beSrobertstd::array<data<char>, {0}> data_utf8 = {{{{
*4bdff4beSrobert{1}}}}};
*4bdff4beSrobert
*4bdff4beSrobert/// The data for UTF-16.
*4bdff4beSrobert///
*4bdff4beSrobert/// Note that most of the data for the UTF-16 and UTF-32 are identical. However
*4bdff4beSrobert/// since the size of the code units differ the breaks can contain different
*4bdff4beSrobert/// values.
*4bdff4beSrobert#ifndef TEST_HAS_NO_WIDE_CHARACTERS
*4bdff4beSrobertstd::array<data<wchar_t>, {0}> data_utf16 = {{{{
*4bdff4beSrobert{2}}}}};
*4bdff4beSrobert
*4bdff4beSrobert/// The data for UTF-8.
*4bdff4beSrobert///
*4bdff4beSrobert/// Note that most of the data for the UTF-16 and UTF-32 are identical. However
*4bdff4beSrobert/// since the size of the code units differ the breaks can contain different
*4bdff4beSrobert/// values.
*4bdff4beSrobertstd::array<data<wchar_t>, {0}> data_utf32 = {{{{
*4bdff4beSrobert{3}}}}};
*4bdff4beSrobert#endif // TEST_HAS_NO_WIDE_CHARACTERS
*4bdff4beSrobert
*4bdff4beSrobert#endif // LIBCXX_TEST_STD_UTILITIES_FORMAT_FORMAT_STRING_FORMAT_STRING_STD_EXTENDED_GRAPHEME_CLUSTER_H"""
*4bdff4beSrobert
*4bdff4beSrobertcpp_test_data_line_template = "     {{{}, {{{}}}, {{{}}}}}"
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertdef lineToCppDataLineUtf8(line: BreakTestItem) -> str:
*4bdff4beSrobert    return cpp_test_data_line_template.format(
*4bdff4beSrobert        f'"{line.encoded}"',
*4bdff4beSrobert        ", ".join([str(x) for x in line.code_points]),
*4bdff4beSrobert        ", ".join([str(x) for x in line.breaks_utf8]),
*4bdff4beSrobert    )
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertdef lineToCppDataLineUtf16(line: BreakTestItem) -> str:
*4bdff4beSrobert    return cpp_test_data_line_template.format(
*4bdff4beSrobert        f'L"{line.encoded}"',
*4bdff4beSrobert        ", ".join([str(x) for x in line.code_points]),
*4bdff4beSrobert        ", ".join([str(x) for x in line.breaks_utf16]),
*4bdff4beSrobert    )
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertdef lineToCppDataLineUtf32(line: BreakTestItem) -> str:
*4bdff4beSrobert    return cpp_test_data_line_template.format(
*4bdff4beSrobert        f'L"{line.encoded}"',
*4bdff4beSrobert        ", ".join([str(x) for x in line.code_points]),
*4bdff4beSrobert        ", ".join([str(x) for x in line.breaks_utf32]),
*4bdff4beSrobert    )
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobert"""
*4bdff4beSrobertGenerate test data from "GraphemeBreakText.txt"
*4bdff4beSrobertThis file can be downloaded from:
*4bdff4beSroberthttps://www.unicode.org/Public/UCD/latest/ucd/auxiliary/GraphemeBreakTest.txt
*4bdff4beSrobertThis script looks for GraphemeBreakTest.txt in same directory as this script
*4bdff4beSrobert"""
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertdef generate_all() -> str:
*4bdff4beSrobert    test_data_path = Path(__file__)
*4bdff4beSrobert    test_data_path = test_data_path.absolute()
*4bdff4beSrobert    test_data_path = (
*4bdff4beSrobert        test_data_path.parent / "data" / "unicode" / "GraphemeBreakTest.txt"
*4bdff4beSrobert    )
*4bdff4beSrobert    lines = list()
*4bdff4beSrobert    with open(test_data_path, mode="rt", encoding="utf-8") as file:
*4bdff4beSrobert        while line := parseBreakTestLine(file):
*4bdff4beSrobert            if len(line.encoded) > 0:
*4bdff4beSrobert                lines.append(line)
*4bdff4beSrobert    return cpp_template.format(
*4bdff4beSrobert        len(lines),
*4bdff4beSrobert        ",\n".join(map(lineToCppDataLineUtf8, lines)),
*4bdff4beSrobert        ",\n".join(map(lineToCppDataLineUtf16, lines)),
*4bdff4beSrobert        ",\n".join(map(lineToCppDataLineUtf32, lines)),
*4bdff4beSrobert    )
*4bdff4beSrobert
*4bdff4beSrobert
*4bdff4beSrobertif __name__ == "__main__":
*4bdff4beSrobert    if len(sys.argv) == 2:
*4bdff4beSrobert        sys.stdout = open(sys.argv[1], "w")
*4bdff4beSrobert    print(generate_all())