contrib/gcc-changelog/git_commit.py

*4c3eb207Smrg#!/usr/bin/env python3
*4c3eb207Smrg#
*4c3eb207Smrg# This file is part of GCC.
*4c3eb207Smrg#
*4c3eb207Smrg# GCC is free software; you can redistribute it and/or modify it under
*4c3eb207Smrg# the terms of the GNU General Public License as published by the Free
*4c3eb207Smrg# Software Foundation; either version 3, or (at your option) any later
*4c3eb207Smrg# version.
*4c3eb207Smrg#
*4c3eb207Smrg# GCC is distributed in the hope that it will be useful, but WITHOUT ANY
*4c3eb207Smrg# WARRANTY; without even the implied warranty of MERCHANTABILITY or
*4c3eb207Smrg# FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
*4c3eb207Smrg# for more details.
*4c3eb207Smrg#
*4c3eb207Smrg# You should have received a copy of the GNU General Public License
*4c3eb207Smrg# along with GCC; see the file COPYING3.  If not see
*4c3eb207Smrg# <http://www.gnu.org/licenses/>.  */
*4c3eb207Smrg
*4c3eb207Smrgimport difflib
*4c3eb207Smrgimport os
*4c3eb207Smrgimport re
*4c3eb207Smrgimport sys
*4c3eb207Smrg
*4c3eb207Smrgdefault_changelog_locations = {
*4c3eb207Smrg    'c++tools',
*4c3eb207Smrg    'config',
*4c3eb207Smrg    'contrib',
*4c3eb207Smrg    'contrib/header-tools',
*4c3eb207Smrg    'contrib/reghunt',
*4c3eb207Smrg    'contrib/regression',
*4c3eb207Smrg    'fixincludes',
*4c3eb207Smrg    'gcc/ada',
*4c3eb207Smrg    'gcc/analyzer',
*4c3eb207Smrg    'gcc/brig',
*4c3eb207Smrg    'gcc/c',
*4c3eb207Smrg    'gcc/c-family',
*4c3eb207Smrg    'gcc',
*4c3eb207Smrg    'gcc/cp',
*4c3eb207Smrg    'gcc/d',
*4c3eb207Smrg    'gcc/fortran',
*4c3eb207Smrg    'gcc/go',
*4c3eb207Smrg    'gcc/jit',
*4c3eb207Smrg    'gcc/lto',
*4c3eb207Smrg    'gcc/objc',
*4c3eb207Smrg    'gcc/objcp',
*4c3eb207Smrg    'gcc/po',
*4c3eb207Smrg    'gcc/testsuite',
*4c3eb207Smrg    'gnattools',
*4c3eb207Smrg    'gotools',
*4c3eb207Smrg    'include',
*4c3eb207Smrg    'intl',
*4c3eb207Smrg    'libada',
*4c3eb207Smrg    'libatomic',
*4c3eb207Smrg    'libbacktrace',
*4c3eb207Smrg    'libcc1',
*4c3eb207Smrg    'libcody',
*4c3eb207Smrg    'libcpp',
*4c3eb207Smrg    'libcpp/po',
*4c3eb207Smrg    'libdecnumber',
*4c3eb207Smrg    'libffi',
*4c3eb207Smrg    'libgcc',
*4c3eb207Smrg    'libgcc/config/avr/libf7',
*4c3eb207Smrg    'libgcc/config/libbid',
*4c3eb207Smrg    'libgfortran',
*4c3eb207Smrg    'libgomp',
*4c3eb207Smrg    'libhsail-rt',
*4c3eb207Smrg    'libiberty',
*4c3eb207Smrg    'libitm',
*4c3eb207Smrg    'libobjc',
*4c3eb207Smrg    'liboffloadmic',
*4c3eb207Smrg    'libphobos',
*4c3eb207Smrg    'libquadmath',
*4c3eb207Smrg    'libsanitizer',
*4c3eb207Smrg    'libssp',
*4c3eb207Smrg    'libstdc++-v3',
*4c3eb207Smrg    'libvtv',
*4c3eb207Smrg    'lto-plugin',
*4c3eb207Smrg    'maintainer-scripts',
*4c3eb207Smrg    'zlib'}
*4c3eb207Smrg
*4c3eb207Smrgbug_components = {
*4c3eb207Smrg    'ada',
*4c3eb207Smrg    'analyzer',
*4c3eb207Smrg    'boehm-gc',
*4c3eb207Smrg    'bootstrap',
*4c3eb207Smrg    'c',
*4c3eb207Smrg    'c++',
*4c3eb207Smrg    'd',
*4c3eb207Smrg    'debug',
*4c3eb207Smrg    'demangler',
*4c3eb207Smrg    'driver',
*4c3eb207Smrg    'fastjar',
*4c3eb207Smrg    'fortran',
*4c3eb207Smrg    'gcov-profile',
*4c3eb207Smrg    'go',
*4c3eb207Smrg    'hsa',
*4c3eb207Smrg    'inline-asm',
*4c3eb207Smrg    'ipa',
*4c3eb207Smrg    'java',
*4c3eb207Smrg    'jit',
*4c3eb207Smrg    'libbacktrace',
*4c3eb207Smrg    'libf2c',
*4c3eb207Smrg    'libffi',
*4c3eb207Smrg    'libfortran',
*4c3eb207Smrg    'libgcc',
*4c3eb207Smrg    'libgcj',
*4c3eb207Smrg    'libgomp',
*4c3eb207Smrg    'libitm',
*4c3eb207Smrg    'libobjc',
*4c3eb207Smrg    'libquadmath',
*4c3eb207Smrg    'libstdc++',
*4c3eb207Smrg    'lto',
*4c3eb207Smrg    'middle-end',
*4c3eb207Smrg    'modula2',
*4c3eb207Smrg    'objc',
*4c3eb207Smrg    'objc++',
*4c3eb207Smrg    'other',
*4c3eb207Smrg    'pch',
*4c3eb207Smrg    'pending',
*4c3eb207Smrg    'plugins',
*4c3eb207Smrg    'preprocessor',
*4c3eb207Smrg    'regression',
*4c3eb207Smrg    'rtl-optimization',
*4c3eb207Smrg    'sanitizer',
*4c3eb207Smrg    'spam',
*4c3eb207Smrg    'target',
*4c3eb207Smrg    'testsuite',
*4c3eb207Smrg    'translation',
*4c3eb207Smrg    'tree-optimization',
*4c3eb207Smrg    'web'}
*4c3eb207Smrg
*4c3eb207Smrgignored_prefixes = {
*4c3eb207Smrg    'gcc/d/dmd/',
*4c3eb207Smrg    'gcc/go/gofrontend/',
*4c3eb207Smrg    'gcc/testsuite/gdc.test/',
*4c3eb207Smrg    'gcc/testsuite/go.test/test/',
*4c3eb207Smrg    'libffi/',
*4c3eb207Smrg    'libgo/',
*4c3eb207Smrg    'libphobos/libdruntime/',
*4c3eb207Smrg    'libphobos/src/',
*4c3eb207Smrg    'libsanitizer/',
*4c3eb207Smrg    }
*4c3eb207Smrg
*4c3eb207Smrgwildcard_prefixes = {
*4c3eb207Smrg    'gcc/testsuite/',
*4c3eb207Smrg    'libstdc++-v3/doc/html/',
*4c3eb207Smrg    'libstdc++-v3/testsuite/'
*4c3eb207Smrg    }
*4c3eb207Smrg
*4c3eb207Smrgmisc_files = {
*4c3eb207Smrg    'gcc/DATESTAMP',
*4c3eb207Smrg    'gcc/BASE-VER',
*4c3eb207Smrg    'gcc/DEV-PHASE'
*4c3eb207Smrg    }
*4c3eb207Smrg
*4c3eb207Smrgauthor_line_regex = \
*4c3eb207Smrg        re.compile(r'^(?P<datetime>\d{4}-\d{2}-\d{2})\ {2}(?P<name>.*  <.*>)')
*4c3eb207Smrgadditional_author_regex = re.compile(r'^\t(?P<spaces>\ *)?(?P<name>.*  <.*>)')
*4c3eb207Smrgchangelog_regex = re.compile(r'^(?:[fF]or +)?([a-z0-9+-/]*)ChangeLog:?')
*4c3eb207Smrgsubject_pr_regex = re.compile(r'(^|\W)PR\s+(?P<component>[a-zA-Z+-]+)/(?P<pr>\d{4,7})')
*4c3eb207Smrgsubject_pr2_regex = re.compile(r'[(\[]PR\s*(?P<pr>\d{4,7})[)\]]')
*4c3eb207Smrgpr_regex = re.compile(r'\tPR (?P<component>[a-z+-]+\/)?(?P<pr>[0-9]+)$')
*4c3eb207Smrgdr_regex = re.compile(r'\tDR ([0-9]+)$')
*4c3eb207Smrgstar_prefix_regex = re.compile(r'\t\*(?P<spaces>\ *)(?P<content>.*)')
*4c3eb207Smrgend_of_location_regex = re.compile(r'[\[<(:]')
*4c3eb207Smrgitem_empty_regex = re.compile(r'\t(\* \S+ )?\(\S+\):\s*$')
*4c3eb207Smrgitem_parenthesis_regex = re.compile(r'\t(\*|\(\S+\):)')
*4c3eb207Smrgrevert_regex = re.compile(r'This reverts commit (?P<hash>\w+).$')
*4c3eb207Smrgcherry_pick_regex = re.compile(r'cherry picked from commit (?P<hash>\w+)')
*4c3eb207Smrg
*4c3eb207SmrgLINE_LIMIT = 100
*4c3eb207SmrgTAB_WIDTH = 8
*4c3eb207SmrgCO_AUTHORED_BY_PREFIX = 'co-authored-by: '
*4c3eb207Smrg
*4c3eb207SmrgREVIEW_PREFIXES = ('reviewed-by: ', 'reviewed-on: ', 'signed-off-by: ',
*4c3eb207Smrg                   'acked-by: ', 'tested-by: ', 'reported-by: ',
*4c3eb207Smrg                   'suggested-by: ')
*4c3eb207SmrgDATE_FORMAT = '%Y-%m-%d'
*4c3eb207Smrg
*4c3eb207Smrg
*4c3eb207Smrgdef decode_path(path):
*4c3eb207Smrg    # When core.quotepath is true (default value), utf8 chars are encoded like:
*4c3eb207Smrg    # "b/ko\304\215ka.txt"
*4c3eb207Smrg    #
*4c3eb207Smrg    # The upstream bug is fixed:
*4c3eb207Smrg    # https://github.com/gitpython-developers/GitPython/issues/1099
*4c3eb207Smrg    #
*4c3eb207Smrg    # but we still need a workaround for older versions of the library.
*4c3eb207Smrg    # Please take a look at the explanation of the transformation:
*4c3eb207Smrg    # https://stackoverflow.com/questions/990169/how-do-convert-unicode-escape-sequences-to-unicode-characters-in-a-python-string
*4c3eb207Smrg
*4c3eb207Smrg    if path.startswith('"') and path.endswith('"'):
*4c3eb207Smrg        return (path.strip('"').encode('utf8').decode('unicode-escape')
*4c3eb207Smrg                .encode('latin-1').decode('utf8'))
*4c3eb207Smrg    else:
*4c3eb207Smrg        return path
*4c3eb207Smrg
*4c3eb207Smrg
*4c3eb207Smrgclass Error:
*4c3eb207Smrg    def __init__(self, message, line=None, details=None):
*4c3eb207Smrg        self.message = message
*4c3eb207Smrg        self.line = line
*4c3eb207Smrg        self.details = details
*4c3eb207Smrg
*4c3eb207Smrg    def __repr__(self):
*4c3eb207Smrg        s = self.message
*4c3eb207Smrg        if self.line:
*4c3eb207Smrg            s += ': "%s"' % self.line
*4c3eb207Smrg        return s
*4c3eb207Smrg
*4c3eb207Smrg
*4c3eb207Smrgclass ChangeLogEntry:
*4c3eb207Smrg    def __init__(self, folder, authors, prs):
*4c3eb207Smrg        self.folder = folder
*4c3eb207Smrg        # The 'list.copy()' function is not available before Python 3.3
*4c3eb207Smrg        self.author_lines = list(authors)
*4c3eb207Smrg        self.initial_prs = list(prs)
*4c3eb207Smrg        self.prs = list(prs)
*4c3eb207Smrg        self.lines = []
*4c3eb207Smrg        self.files = []
*4c3eb207Smrg        self.file_patterns = []
*4c3eb207Smrg        self.parentheses_stack = []
*4c3eb207Smrg
*4c3eb207Smrg    def parse_file_names(self):
*4c3eb207Smrg        # Whether the content currently processed is between a star prefix the
*4c3eb207Smrg        # end of the file list: a colon or an open paren.
*4c3eb207Smrg        in_location = False
*4c3eb207Smrg
*4c3eb207Smrg        for line in self.lines:
*4c3eb207Smrg            # If this line matches the star prefix, start the location
*4c3eb207Smrg            # processing on the information that follows the star.
*4c3eb207Smrg            # Note that we need to skip macro names that can be in form of:
*4c3eb207Smrg            #
*4c3eb207Smrg            # * config/i386/i386.md (*fix_trunc<mode>_i387_1,
*4c3eb207Smrg            # *add<mode>3_ne, *add<mode>3_eq_0, *add<mode>3_ne_0,
*4c3eb207Smrg            # *fist<mode>2_<rounding>_1, *<code><mode>3_1):
*4c3eb207Smrg            #
*4c3eb207Smrg            m = star_prefix_regex.match(line)
*4c3eb207Smrg            if m and len(m.group('spaces')) == 1:
*4c3eb207Smrg                in_location = True
*4c3eb207Smrg                line = m.group('content')
*4c3eb207Smrg
*4c3eb207Smrg            if in_location:
*4c3eb207Smrg                # Strip everything that is not a filename in "line":
*4c3eb207Smrg                # entities "(NAME)", cases "<PATTERN>", conditions
*4c3eb207Smrg                # "[COND]", entry text (the colon, if present, and
*4c3eb207Smrg                # anything that follows it).
*4c3eb207Smrg                m = end_of_location_regex.search(line)
*4c3eb207Smrg                if m:
*4c3eb207Smrg                    line = line[:m.start()]
*4c3eb207Smrg                    in_location = False
*4c3eb207Smrg
*4c3eb207Smrg                # At this point, all that's left is a list of filenames
*4c3eb207Smrg                # separated by commas and whitespaces.
*4c3eb207Smrg                for file in line.split(','):
*4c3eb207Smrg                    file = file.strip()
*4c3eb207Smrg                    if file:
*4c3eb207Smrg                        if file.endswith('*'):
*4c3eb207Smrg                            self.file_patterns.append(file[:-1])
*4c3eb207Smrg                        else:
*4c3eb207Smrg                            self.files.append(file)
*4c3eb207Smrg
*4c3eb207Smrg    @property
*4c3eb207Smrg    def datetime(self):
*4c3eb207Smrg        for author in self.author_lines:
*4c3eb207Smrg            if author[1]:
*4c3eb207Smrg                return author[1]
*4c3eb207Smrg        return None
*4c3eb207Smrg
*4c3eb207Smrg    @property
*4c3eb207Smrg    def authors(self):
*4c3eb207Smrg        return [author_line[0] for author_line in self.author_lines]
*4c3eb207Smrg
*4c3eb207Smrg    @property
*4c3eb207Smrg    def is_empty(self):
*4c3eb207Smrg        return not self.lines and self.prs == self.initial_prs
*4c3eb207Smrg
*4c3eb207Smrg    def contains_author(self, author):
*4c3eb207Smrg        for author_lines in self.author_lines:
*4c3eb207Smrg            if author_lines[0] == author:
*4c3eb207Smrg                return True
*4c3eb207Smrg        return False
*4c3eb207Smrg
*4c3eb207Smrg
*4c3eb207Smrgclass GitInfo:
*4c3eb207Smrg    def __init__(self, hexsha, date, author, lines, modified_files):
*4c3eb207Smrg        self.hexsha = hexsha
*4c3eb207Smrg        self.date = date
*4c3eb207Smrg        self.author = author
*4c3eb207Smrg        self.lines = lines
*4c3eb207Smrg        self.modified_files = modified_files
*4c3eb207Smrg
*4c3eb207Smrg
*4c3eb207Smrgclass GitCommit:
*4c3eb207Smrg    def __init__(self, info, commit_to_info_hook=None, ref_name=None):
*4c3eb207Smrg        self.original_info = info
*4c3eb207Smrg        self.info = info
*4c3eb207Smrg        self.message = None
*4c3eb207Smrg        self.changes = None
*4c3eb207Smrg        self.changelog_entries = []
*4c3eb207Smrg        self.errors = []
*4c3eb207Smrg        self.top_level_authors = []
*4c3eb207Smrg        self.co_authors = []
*4c3eb207Smrg        self.top_level_prs = []
*4c3eb207Smrg        self.subject_prs = set()
*4c3eb207Smrg        self.cherry_pick_commit = None
*4c3eb207Smrg        self.revert_commit = None
*4c3eb207Smrg        self.commit_to_info_hook = commit_to_info_hook
*4c3eb207Smrg        self.init_changelog_locations(ref_name)
*4c3eb207Smrg
*4c3eb207Smrg        # Skip Update copyright years commits
*4c3eb207Smrg        if self.info.lines and self.info.lines[0] == 'Update copyright years.':
*4c3eb207Smrg            return
*4c3eb207Smrg
*4c3eb207Smrg        if self.info.lines and len(self.info.lines) > 1 and self.info.lines[1]:
*4c3eb207Smrg            self.errors.append(Error('Expected empty second line in commit message', info.lines[0]))
*4c3eb207Smrg
*4c3eb207Smrg        # Identify first if the commit is a Revert commit
*4c3eb207Smrg        for line in self.info.lines:
*4c3eb207Smrg            m = revert_regex.match(line)
*4c3eb207Smrg            if m:
*4c3eb207Smrg                self.revert_commit = m.group('hash')
*4c3eb207Smrg                break
*4c3eb207Smrg        if self.revert_commit:
*4c3eb207Smrg            self.info = self.commit_to_info_hook(self.revert_commit)
*4c3eb207Smrg
*4c3eb207Smrg        # The following happens for get_email.py:
*4c3eb207Smrg        if not self.info:
*4c3eb207Smrg            return
*4c3eb207Smrg
*4c3eb207Smrg        self.check_commit_email()
*4c3eb207Smrg
*4c3eb207Smrg        # Extract PR numbers form the subject line
*4c3eb207Smrg        # Match either [PRnnnn] / (PRnnnn) or PR component/nnnn
*4c3eb207Smrg        if self.info.lines and not self.revert_commit:
*4c3eb207Smrg            self.subject_prs = {m.group('pr') for m in subject_pr2_regex.finditer(info.lines[0])}
*4c3eb207Smrg            for m in subject_pr_regex.finditer(info.lines[0]):
*4c3eb207Smrg                if not m.group('component') in bug_components:
*4c3eb207Smrg                    self.errors.append(Error('invalid PR component in subject', info.lines[0]))
*4c3eb207Smrg                self.subject_prs.add(m.group('pr'))
*4c3eb207Smrg
*4c3eb207Smrg        # Allow complete deletion of ChangeLog files in a commit
*4c3eb207Smrg        project_files = [f for f in self.info.modified_files
*4c3eb207Smrg                         if (self.is_changelog_filename(f[0], allow_suffix=True) and f[1] != 'D')
*4c3eb207Smrg                         or f[0] in misc_files]
*4c3eb207Smrg        ignored_files = [f for f in self.info.modified_files
*4c3eb207Smrg                         if self.in_ignored_location(f[0])]
*4c3eb207Smrg        if len(project_files) == len(self.info.modified_files):
*4c3eb207Smrg            # All modified files are only MISC files
*4c3eb207Smrg            return
*4c3eb207Smrg        elif project_files:
*4c3eb207Smrg            err = 'ChangeLog, DATESTAMP, BASE-VER and DEV-PHASE updates ' \
*4c3eb207Smrg                  'should be done separately from normal commits\n' \
*4c3eb207Smrg                  '(note: ChangeLog entries will be automatically ' \
*4c3eb207Smrg                  'added by a cron job)'
*4c3eb207Smrg            self.errors.append(Error(err))
*4c3eb207Smrg            return
*4c3eb207Smrg
*4c3eb207Smrg        all_are_ignored = (len(project_files) + len(ignored_files)
*4c3eb207Smrg                           == len(self.info.modified_files))
*4c3eb207Smrg        self.parse_lines(all_are_ignored)
*4c3eb207Smrg        if self.changes:
*4c3eb207Smrg            self.parse_changelog()
*4c3eb207Smrg            self.parse_file_names()
*4c3eb207Smrg            self.check_for_empty_description()
*4c3eb207Smrg            self.check_for_broken_parentheses()
*4c3eb207Smrg            self.deduce_changelog_locations()
*4c3eb207Smrg            self.check_file_patterns()
*4c3eb207Smrg            if not self.errors:
*4c3eb207Smrg                self.check_mentioned_files()
*4c3eb207Smrg                self.check_for_correct_changelog()
*4c3eb207Smrg        if self.subject_prs:
*4c3eb207Smrg            self.errors.append(Error('PR %s in subject but not in changelog' %
*4c3eb207Smrg                                     ', '.join(self.subject_prs), self.info.lines[0]))
*4c3eb207Smrg
*4c3eb207Smrg    @property
*4c3eb207Smrg    def success(self):
*4c3eb207Smrg        return not self.errors
*4c3eb207Smrg
*4c3eb207Smrg    @property
*4c3eb207Smrg    def new_files(self):
*4c3eb207Smrg        return [x[0] for x in self.info.modified_files if x[1] == 'A']
*4c3eb207Smrg
*4c3eb207Smrg    @classmethod
*4c3eb207Smrg    def is_changelog_filename(cls, path, allow_suffix=False):
*4c3eb207Smrg        basename = os.path.basename(path)
*4c3eb207Smrg        if basename == 'ChangeLog':
*4c3eb207Smrg            return True
*4c3eb207Smrg        elif allow_suffix and basename.startswith('ChangeLog'):
*4c3eb207Smrg            return True
*4c3eb207Smrg        else:
*4c3eb207Smrg            return False
*4c3eb207Smrg
*4c3eb207Smrg    def find_changelog_location(self, name):
*4c3eb207Smrg        if name.startswith('\t'):
*4c3eb207Smrg            name = name[1:]
*4c3eb207Smrg        if name.endswith(':'):
*4c3eb207Smrg            name = name[:-1]
*4c3eb207Smrg        if name.endswith('/'):
*4c3eb207Smrg            name = name[:-1]
*4c3eb207Smrg        return name if name in self.changelog_locations else None
*4c3eb207Smrg
*4c3eb207Smrg    @classmethod
*4c3eb207Smrg    def format_git_author(cls, author):
*4c3eb207Smrg        assert '<' in author
*4c3eb207Smrg        return author.replace('<', ' <')
*4c3eb207Smrg
*4c3eb207Smrg    @classmethod
*4c3eb207Smrg    def parse_git_name_status(cls, string):
*4c3eb207Smrg        modified_files = []
*4c3eb207Smrg        for entry in string.split('\n'):
*4c3eb207Smrg            parts = entry.split('\t')
*4c3eb207Smrg            t = parts[0]
*4c3eb207Smrg            if t == 'A' or t == 'D' or t == 'M':
*4c3eb207Smrg                modified_files.append((parts[1], t))
*4c3eb207Smrg            elif t.startswith('R'):
*4c3eb207Smrg                modified_files.append((parts[1], 'D'))
*4c3eb207Smrg                modified_files.append((parts[2], 'A'))
*4c3eb207Smrg        return modified_files
*4c3eb207Smrg
*4c3eb207Smrg    def init_changelog_locations(self, ref_name):
*4c3eb207Smrg        self.changelog_locations = list(default_changelog_locations)
*4c3eb207Smrg        if ref_name:
*4c3eb207Smrg            version = sys.maxsize
*4c3eb207Smrg            if 'releases/gcc-' in ref_name:
*4c3eb207Smrg                version = int(ref_name.split('-')[-1])
*4c3eb207Smrg            if version >= 12:
*4c3eb207Smrg                # HSA and BRIG were removed in GCC 12
*4c3eb207Smrg                self.changelog_locations.remove('gcc/brig')
*4c3eb207Smrg                self.changelog_locations.remove('libhsail-rt')
*4c3eb207Smrg
*4c3eb207Smrg    def parse_lines(self, all_are_ignored):
*4c3eb207Smrg        body = self.info.lines
*4c3eb207Smrg
*4c3eb207Smrg        for i, b in enumerate(body):
*4c3eb207Smrg            if not b:
*4c3eb207Smrg                continue
*4c3eb207Smrg            if (changelog_regex.match(b) or self.find_changelog_location(b)
*4c3eb207Smrg                    or star_prefix_regex.match(b) or pr_regex.match(b)
*4c3eb207Smrg                    or dr_regex.match(b) or author_line_regex.match(b)
*4c3eb207Smrg                    or b.lower().startswith(CO_AUTHORED_BY_PREFIX)):
*4c3eb207Smrg                self.changes = body[i:]
*4c3eb207Smrg                return
*4c3eb207Smrg        if not all_are_ignored:
*4c3eb207Smrg            self.errors.append(Error('cannot find a ChangeLog location in '
*4c3eb207Smrg                                     'message'))
*4c3eb207Smrg
*4c3eb207Smrg    def parse_changelog(self):
*4c3eb207Smrg        last_entry = None
*4c3eb207Smrg        will_deduce = False
*4c3eb207Smrg        for line in self.changes:
*4c3eb207Smrg            if not line:
*4c3eb207Smrg                if last_entry and will_deduce:
*4c3eb207Smrg                    last_entry = None
*4c3eb207Smrg                continue
*4c3eb207Smrg            if line != line.rstrip():
*4c3eb207Smrg                self.errors.append(Error('trailing whitespace', line))
*4c3eb207Smrg            if len(line.replace('\t', ' ' * TAB_WIDTH)) > LINE_LIMIT:
*4c3eb207Smrg                # support long filenames
*4c3eb207Smrg                if not line.startswith('\t* ') or not line.endswith(':') or ' ' in line[3:-1]:
*4c3eb207Smrg                    self.errors.append(Error('line exceeds %d character limit'
*4c3eb207Smrg                                             % LINE_LIMIT, line))
*4c3eb207Smrg            m = changelog_regex.match(line)
*4c3eb207Smrg            if m:
*4c3eb207Smrg                last_entry = ChangeLogEntry(m.group(1).rstrip('/'),
*4c3eb207Smrg                                            self.top_level_authors,
*4c3eb207Smrg                                            self.top_level_prs)
*4c3eb207Smrg                self.changelog_entries.append(last_entry)
*4c3eb207Smrg            elif self.find_changelog_location(line):
*4c3eb207Smrg                last_entry = ChangeLogEntry(self.find_changelog_location(line),
*4c3eb207Smrg                                            self.top_level_authors,
*4c3eb207Smrg                                            self.top_level_prs)
*4c3eb207Smrg                self.changelog_entries.append(last_entry)
*4c3eb207Smrg            else:
*4c3eb207Smrg                author_tuple = None
*4c3eb207Smrg                pr_line = None
*4c3eb207Smrg                if author_line_regex.match(line):
*4c3eb207Smrg                    m = author_line_regex.match(line)
*4c3eb207Smrg                    author_tuple = (m.group('name'), m.group('datetime'))
*4c3eb207Smrg                elif additional_author_regex.match(line):
*4c3eb207Smrg                    m = additional_author_regex.match(line)
*4c3eb207Smrg                    if len(m.group('spaces')) != 4:
*4c3eb207Smrg                        msg = 'additional author must be indented with '\
*4c3eb207Smrg                              'one tab and four spaces'
*4c3eb207Smrg                        self.errors.append(Error(msg, line))
*4c3eb207Smrg                    else:
*4c3eb207Smrg                        author_tuple = (m.group('name'), None)
*4c3eb207Smrg                elif pr_regex.match(line):
*4c3eb207Smrg                    m = pr_regex.match(line)
*4c3eb207Smrg                    component = m.group('component')
*4c3eb207Smrg                    pr = m.group('pr')
*4c3eb207Smrg                    if not component:
*4c3eb207Smrg                        self.errors.append(Error('missing PR component', line))
*4c3eb207Smrg                        continue
*4c3eb207Smrg                    elif not component[:-1] in bug_components:
*4c3eb207Smrg                        self.errors.append(Error('invalid PR component', line))
*4c3eb207Smrg                        continue
*4c3eb207Smrg                    else:
*4c3eb207Smrg                        pr_line = line.lstrip()
*4c3eb207Smrg                    if pr in self.subject_prs:
*4c3eb207Smrg                        self.subject_prs.remove(pr)
*4c3eb207Smrg                elif dr_regex.match(line):
*4c3eb207Smrg                    pr_line = line.lstrip()
*4c3eb207Smrg
*4c3eb207Smrg                lowered_line = line.lower()
*4c3eb207Smrg                if lowered_line.startswith(CO_AUTHORED_BY_PREFIX):
*4c3eb207Smrg                    name = line[len(CO_AUTHORED_BY_PREFIX):]
*4c3eb207Smrg                    author = self.format_git_author(name)
*4c3eb207Smrg                    self.co_authors.append(author)
*4c3eb207Smrg                    continue
*4c3eb207Smrg                elif lowered_line.startswith(REVIEW_PREFIXES):
*4c3eb207Smrg                    continue
*4c3eb207Smrg                else:
*4c3eb207Smrg                    m = cherry_pick_regex.search(line)
*4c3eb207Smrg                    if m:
*4c3eb207Smrg                        commit = m.group('hash')
*4c3eb207Smrg                        if self.cherry_pick_commit:
*4c3eb207Smrg                            msg = 'multiple cherry pick lines'
*4c3eb207Smrg                            self.errors.append(Error(msg, line))
*4c3eb207Smrg                        else:
*4c3eb207Smrg                            self.cherry_pick_commit = commit
*4c3eb207Smrg                        continue
*4c3eb207Smrg
*4c3eb207Smrg                # ChangeLog name will be deduced later
*4c3eb207Smrg                if not last_entry:
*4c3eb207Smrg                    if author_tuple:
*4c3eb207Smrg                        self.top_level_authors.append(author_tuple)
*4c3eb207Smrg                        continue
*4c3eb207Smrg                    elif pr_line:
*4c3eb207Smrg                        # append to top_level_prs only when we haven't met
*4c3eb207Smrg                        # a ChangeLog entry
*4c3eb207Smrg                        if (pr_line not in self.top_level_prs
*4c3eb207Smrg                                and not self.changelog_entries):
*4c3eb207Smrg                            self.top_level_prs.append(pr_line)
*4c3eb207Smrg                        continue
*4c3eb207Smrg                    else:
*4c3eb207Smrg                        last_entry = ChangeLogEntry(None,
*4c3eb207Smrg                                                    self.top_level_authors,
*4c3eb207Smrg                                                    self.top_level_prs)
*4c3eb207Smrg                        self.changelog_entries.append(last_entry)
*4c3eb207Smrg                        will_deduce = True
*4c3eb207Smrg                elif author_tuple:
*4c3eb207Smrg                    if not last_entry.contains_author(author_tuple[0]):
*4c3eb207Smrg                        last_entry.author_lines.append(author_tuple)
*4c3eb207Smrg                    continue
*4c3eb207Smrg
*4c3eb207Smrg                if not line.startswith('\t'):
*4c3eb207Smrg                    err = Error('line should start with a tab', line)
*4c3eb207Smrg                    self.errors.append(err)
*4c3eb207Smrg                elif pr_line:
*4c3eb207Smrg                    last_entry.prs.append(pr_line)
*4c3eb207Smrg                else:
*4c3eb207Smrg                    m = star_prefix_regex.match(line)
*4c3eb207Smrg                    if m:
*4c3eb207Smrg                        if (len(m.group('spaces')) != 1 and
*4c3eb207Smrg                                not last_entry.parentheses_stack):
*4c3eb207Smrg                            msg = 'one space should follow asterisk'
*4c3eb207Smrg                            self.errors.append(Error(msg, line))
*4c3eb207Smrg                        else:
*4c3eb207Smrg                            content = m.group('content')
*4c3eb207Smrg                            parts = content.split(':')
*4c3eb207Smrg                            if len(parts) > 1:
*4c3eb207Smrg                                for needle in ('()', '[]', '<>'):
*4c3eb207Smrg                                    if ' ' + needle in parts[0]:
*4c3eb207Smrg                                        msg = f'empty group "{needle}" found'
*4c3eb207Smrg                                        self.errors.append(Error(msg, line))
*4c3eb207Smrg                            last_entry.lines.append(line)
*4c3eb207Smrg                            self.process_parentheses(last_entry, line)
*4c3eb207Smrg                    else:
*4c3eb207Smrg                        if last_entry.is_empty:
*4c3eb207Smrg                            msg = 'first line should start with a tab, ' \
*4c3eb207Smrg                                  'an asterisk and a space'
*4c3eb207Smrg                            self.errors.append(Error(msg, line))
*4c3eb207Smrg                        else:
*4c3eb207Smrg                            last_entry.lines.append(line)
*4c3eb207Smrg                            self.process_parentheses(last_entry, line)
*4c3eb207Smrg
*4c3eb207Smrg    def process_parentheses(self, last_entry, line):
*4c3eb207Smrg        for c in line:
*4c3eb207Smrg            if c == '(':
*4c3eb207Smrg                last_entry.parentheses_stack.append(line)
*4c3eb207Smrg            elif c == ')':
*4c3eb207Smrg                if not last_entry.parentheses_stack:
*4c3eb207Smrg                    msg = 'bad wrapping of parenthesis'
*4c3eb207Smrg                    self.errors.append(Error(msg, line))
*4c3eb207Smrg                else:
*4c3eb207Smrg                    del last_entry.parentheses_stack[-1]
*4c3eb207Smrg
*4c3eb207Smrg    def parse_file_names(self):
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            entry.parse_file_names()
*4c3eb207Smrg
*4c3eb207Smrg    def check_file_patterns(self):
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            for pattern in entry.file_patterns:
*4c3eb207Smrg                name = os.path.join(entry.folder, pattern)
*4c3eb207Smrg                if not [name.startswith(pr) for pr in wildcard_prefixes]:
*4c3eb207Smrg                    msg = 'unsupported wildcard prefix'
*4c3eb207Smrg                    self.errors.append(Error(msg, name))
*4c3eb207Smrg
*4c3eb207Smrg    def check_for_empty_description(self):
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            for i, line in enumerate(entry.lines):
*4c3eb207Smrg                if (item_empty_regex.match(line) and
*4c3eb207Smrg                    (i == len(entry.lines) - 1
*4c3eb207Smrg                     or not entry.lines[i+1].strip()
*4c3eb207Smrg                     or item_parenthesis_regex.match(entry.lines[i+1]))):
*4c3eb207Smrg                    msg = 'missing description of a change'
*4c3eb207Smrg                    self.errors.append(Error(msg, line))
*4c3eb207Smrg
*4c3eb207Smrg    def check_for_broken_parentheses(self):
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            if entry.parentheses_stack:
*4c3eb207Smrg                msg = 'bad parentheses wrapping'
*4c3eb207Smrg                self.errors.append(Error(msg, entry.parentheses_stack[-1]))
*4c3eb207Smrg
*4c3eb207Smrg    def get_file_changelog_location(self, changelog_file):
*4c3eb207Smrg        for file in self.info.modified_files:
*4c3eb207Smrg            if file[0] == changelog_file:
*4c3eb207Smrg                # root ChangeLog file
*4c3eb207Smrg                return ''
*4c3eb207Smrg            index = file[0].find('/' + changelog_file)
*4c3eb207Smrg            if index != -1:
*4c3eb207Smrg                return file[0][:index]
*4c3eb207Smrg        return None
*4c3eb207Smrg
*4c3eb207Smrg    def deduce_changelog_locations(self):
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            if not entry.folder:
*4c3eb207Smrg                changelog = None
*4c3eb207Smrg                for file in entry.files:
*4c3eb207Smrg                    location = self.get_file_changelog_location(file)
*4c3eb207Smrg                    if (location == ''
*4c3eb207Smrg                       or (location and location in self.changelog_locations)):
*4c3eb207Smrg                        if changelog and changelog != location:
*4c3eb207Smrg                            msg = 'could not deduce ChangeLog file, ' \
*4c3eb207Smrg                                  'not unique location'
*4c3eb207Smrg                            self.errors.append(Error(msg))
*4c3eb207Smrg                            return
*4c3eb207Smrg                        changelog = location
*4c3eb207Smrg                if changelog is not None:
*4c3eb207Smrg                    entry.folder = changelog
*4c3eb207Smrg                else:
*4c3eb207Smrg                    msg = 'could not deduce ChangeLog file'
*4c3eb207Smrg                    self.errors.append(Error(msg))
*4c3eb207Smrg
*4c3eb207Smrg    @classmethod
*4c3eb207Smrg    def in_ignored_location(cls, path):
*4c3eb207Smrg        for ignored in ignored_prefixes:
*4c3eb207Smrg            if path.startswith(ignored):
*4c3eb207Smrg                return True
*4c3eb207Smrg        return False
*4c3eb207Smrg
*4c3eb207Smrg    def get_changelog_by_path(self, path):
*4c3eb207Smrg        components = path.split('/')
*4c3eb207Smrg        while components:
*4c3eb207Smrg            if '/'.join(components) in self.changelog_locations:
*4c3eb207Smrg                break
*4c3eb207Smrg            components = components[:-1]
*4c3eb207Smrg        return '/'.join(components)
*4c3eb207Smrg
*4c3eb207Smrg    def check_mentioned_files(self):
*4c3eb207Smrg        folder_count = len([x.folder for x in self.changelog_entries])
*4c3eb207Smrg        assert folder_count == len(self.changelog_entries)
*4c3eb207Smrg
*4c3eb207Smrg        mentioned_files = set()
*4c3eb207Smrg        mentioned_patterns = []
*4c3eb207Smrg        used_patterns = set()
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            if not entry.files and not entry.file_patterns:
*4c3eb207Smrg                msg = 'no files mentioned for ChangeLog in directory'
*4c3eb207Smrg                self.errors.append(Error(msg, entry.folder))
*4c3eb207Smrg            assert not entry.folder.endswith('/')
*4c3eb207Smrg            for file in entry.files:
*4c3eb207Smrg                if not self.is_changelog_filename(file):
*4c3eb207Smrg                    item = os.path.join(entry.folder, file)
*4c3eb207Smrg                    if item in mentioned_files:
*4c3eb207Smrg                        msg = 'same file specified multiple times'
*4c3eb207Smrg                        self.errors.append(Error(msg, file))
*4c3eb207Smrg                    else:
*4c3eb207Smrg                        mentioned_files.add(item)
*4c3eb207Smrg            for pattern in entry.file_patterns:
*4c3eb207Smrg                mentioned_patterns.append(os.path.join(entry.folder, pattern))
*4c3eb207Smrg
*4c3eb207Smrg        cand = [x[0] for x in self.info.modified_files
*4c3eb207Smrg                if not self.is_changelog_filename(x[0])]
*4c3eb207Smrg        changed_files = set(cand)
*4c3eb207Smrg        for file in sorted(mentioned_files - changed_files):
*4c3eb207Smrg            msg = 'unchanged file mentioned in a ChangeLog'
*4c3eb207Smrg            candidates = difflib.get_close_matches(file, changed_files, 1)
*4c3eb207Smrg            details = None
*4c3eb207Smrg            if candidates:
*4c3eb207Smrg                msg += f' (did you mean "{candidates[0]}"?)'
*4c3eb207Smrg                details = '\n'.join(difflib.Differ().compare([file], [candidates[0]])).rstrip()
*4c3eb207Smrg            self.errors.append(Error(msg, file, details))
*4c3eb207Smrg        for file in sorted(changed_files - mentioned_files):
*4c3eb207Smrg            if not self.in_ignored_location(file):
*4c3eb207Smrg                if file in self.new_files:
*4c3eb207Smrg                    changelog_location = self.get_changelog_by_path(file)
*4c3eb207Smrg                    # Python2: we cannot use next(filter(...))
*4c3eb207Smrg                    entries = filter(lambda x: x.folder == changelog_location,
*4c3eb207Smrg                                     self.changelog_entries)
*4c3eb207Smrg                    entries = list(entries)
*4c3eb207Smrg                    entry = entries[0] if entries else None
*4c3eb207Smrg                    if not entry:
*4c3eb207Smrg                        prs = self.top_level_prs
*4c3eb207Smrg                        if not prs:
*4c3eb207Smrg                            # if all ChangeLog entries have identical PRs
*4c3eb207Smrg                            # then use them
*4c3eb207Smrg                            prs = self.changelog_entries[0].prs
*4c3eb207Smrg                            for entry in self.changelog_entries:
*4c3eb207Smrg                                if entry.prs != prs:
*4c3eb207Smrg                                    prs = []
*4c3eb207Smrg                                    break
*4c3eb207Smrg                        entry = ChangeLogEntry(changelog_location,
*4c3eb207Smrg                                               self.top_level_authors,
*4c3eb207Smrg                                               prs)
*4c3eb207Smrg                        self.changelog_entries.append(entry)
*4c3eb207Smrg                    # strip prefix of the file
*4c3eb207Smrg                    assert file.startswith(entry.folder)
*4c3eb207Smrg                    # do not allow auto-addition of New files
*4c3eb207Smrg                    # for the top-level folder
*4c3eb207Smrg                    if entry.folder:
*4c3eb207Smrg                        file = file[len(entry.folder):].lstrip('/')
*4c3eb207Smrg                        entry.lines.append('\t* %s: New file.' % file)
*4c3eb207Smrg                        entry.files.append(file)
*4c3eb207Smrg                    else:
*4c3eb207Smrg                        msg = 'new file in the top-level folder not mentioned in a ChangeLog'
*4c3eb207Smrg                        self.errors.append(Error(msg, file))
*4c3eb207Smrg                else:
*4c3eb207Smrg                    used_pattern = [p for p in mentioned_patterns
*4c3eb207Smrg                                    if file.startswith(p)]
*4c3eb207Smrg                    used_pattern = used_pattern[0] if used_pattern else None
*4c3eb207Smrg                    if used_pattern:
*4c3eb207Smrg                        used_patterns.add(used_pattern)
*4c3eb207Smrg                    else:
*4c3eb207Smrg                        msg = 'changed file not mentioned in a ChangeLog'
*4c3eb207Smrg                        self.errors.append(Error(msg, file))
*4c3eb207Smrg
*4c3eb207Smrg        for pattern in mentioned_patterns:
*4c3eb207Smrg            if pattern not in used_patterns:
*4c3eb207Smrg                error = "pattern doesn't match any changed files"
*4c3eb207Smrg                self.errors.append(Error(error, pattern))
*4c3eb207Smrg
*4c3eb207Smrg    def check_for_correct_changelog(self):
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            for file in entry.files:
*4c3eb207Smrg                full_path = os.path.join(entry.folder, file)
*4c3eb207Smrg                changelog_location = self.get_changelog_by_path(full_path)
*4c3eb207Smrg                if changelog_location != entry.folder:
*4c3eb207Smrg                    msg = 'wrong ChangeLog location "%s", should be "%s"'
*4c3eb207Smrg                    err = Error(msg % (entry.folder, changelog_location), file)
*4c3eb207Smrg                    self.errors.append(err)
*4c3eb207Smrg
*4c3eb207Smrg    @classmethod
*4c3eb207Smrg    def format_authors_in_changelog(cls, authors, timestamp, prefix=''):
*4c3eb207Smrg        output = ''
*4c3eb207Smrg        for i, author in enumerate(authors):
*4c3eb207Smrg            if i == 0:
*4c3eb207Smrg                output += '%s%s  %s\n' % (prefix, timestamp, author)
*4c3eb207Smrg            else:
*4c3eb207Smrg                output += '%s\t    %s\n' % (prefix, author)
*4c3eb207Smrg        output += '\n'
*4c3eb207Smrg        return output
*4c3eb207Smrg
*4c3eb207Smrg    def to_changelog_entries(self, use_commit_ts=False):
*4c3eb207Smrg        current_timestamp = self.info.date.strftime(DATE_FORMAT)
*4c3eb207Smrg        for entry in self.changelog_entries:
*4c3eb207Smrg            output = ''
*4c3eb207Smrg            timestamp = entry.datetime
*4c3eb207Smrg            if self.revert_commit:
*4c3eb207Smrg                timestamp = current_timestamp
*4c3eb207Smrg                orig_date = self.original_info.date
*4c3eb207Smrg                current_timestamp = orig_date.strftime(DATE_FORMAT)
*4c3eb207Smrg            elif self.cherry_pick_commit:
*4c3eb207Smrg                info = self.commit_to_info_hook(self.cherry_pick_commit)
*4c3eb207Smrg                # it can happen that it is a cherry-pick for a different
*4c3eb207Smrg                # repository
*4c3eb207Smrg                if info:
*4c3eb207Smrg                    timestamp = info.date.strftime(DATE_FORMAT)
*4c3eb207Smrg                else:
*4c3eb207Smrg                    timestamp = current_timestamp
*4c3eb207Smrg            elif not timestamp or use_commit_ts:
*4c3eb207Smrg                timestamp = current_timestamp
*4c3eb207Smrg            authors = entry.authors if entry.authors else [self.info.author]
*4c3eb207Smrg            # add Co-Authored-By authors to all ChangeLog entries
*4c3eb207Smrg            for author in self.co_authors:
*4c3eb207Smrg                if author not in authors:
*4c3eb207Smrg                    authors.append(author)
*4c3eb207Smrg
*4c3eb207Smrg            if self.cherry_pick_commit or self.revert_commit:
*4c3eb207Smrg                original_author = self.original_info.author
*4c3eb207Smrg                output += self.format_authors_in_changelog([original_author],
*4c3eb207Smrg                                                           current_timestamp)
*4c3eb207Smrg                if self.revert_commit:
*4c3eb207Smrg                    output += '\tRevert:\n'
*4c3eb207Smrg                else:
*4c3eb207Smrg                    output += '\tBackported from master:\n'
*4c3eb207Smrg                output += self.format_authors_in_changelog(authors,
*4c3eb207Smrg                                                           timestamp, '\t')
*4c3eb207Smrg            else:
*4c3eb207Smrg                output += self.format_authors_in_changelog(authors, timestamp)
*4c3eb207Smrg            for pr in entry.prs:
*4c3eb207Smrg                output += '\t%s\n' % pr
*4c3eb207Smrg            for line in entry.lines:
*4c3eb207Smrg                output += line + '\n'
*4c3eb207Smrg            yield (entry.folder, output.rstrip())
*4c3eb207Smrg
*4c3eb207Smrg    def print_output(self):
*4c3eb207Smrg        for entry, output in self.to_changelog_entries():
*4c3eb207Smrg            print('------ %s/ChangeLog ------ ' % entry)
*4c3eb207Smrg            print(output)
*4c3eb207Smrg
*4c3eb207Smrg    def print_errors(self):
*4c3eb207Smrg        print('Errors:')
*4c3eb207Smrg        for error in self.errors:
*4c3eb207Smrg            print(error)
*4c3eb207Smrg
*4c3eb207Smrg    def check_commit_email(self):
*4c3eb207Smrg        # Parse 'Martin Liska  <mliska@suse.cz>'
*4c3eb207Smrg        email = self.info.author.split(' ')[-1].strip('<>')
*4c3eb207Smrg
*4c3eb207Smrg        # Verify that all characters are ASCII
*4c3eb207Smrg        # TODO: Python 3.7 provides a nicer function: isascii
*4c3eb207Smrg        if len(email) != len(email.encode()):
*4c3eb207Smrg            self.errors.append(Error(f'non-ASCII characters in git commit email address ({email})'))