lib/AST/CommentLexer.cpp

0b57cec5SDimitry Andric//===--- CommentLexer.cpp -------------------------------------------------===//
0b57cec5SDimitry Andric//
0b57cec5SDimitry Andric// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
0b57cec5SDimitry Andric// See https://llvm.org/LICENSE.txt for license information.
0b57cec5SDimitry Andric// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
0b57cec5SDimitry Andric//
0b57cec5SDimitry Andric//===----------------------------------------------------------------------===//
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric#include "clang/AST/CommentLexer.h"
0b57cec5SDimitry Andric#include "clang/AST/CommentCommandTraits.h"
0b57cec5SDimitry Andric#include "clang/AST/CommentDiagnostic.h"
0b57cec5SDimitry Andric#include "clang/Basic/CharInfo.h"
0b57cec5SDimitry Andric#include "llvm/ADT/StringExtras.h"
0b57cec5SDimitry Andric#include "llvm/ADT/StringSwitch.h"
0b57cec5SDimitry Andric#include "llvm/Support/ConvertUTF.h"
0b57cec5SDimitry Andric#include "llvm/Support/ErrorHandling.h"
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricnamespace clang {
0b57cec5SDimitry Andricnamespace comments {
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Token::dump(const Lexer &L, const SourceManager &SM) const {
0b57cec5SDimitry Andric  llvm::errs() << "comments::Token Kind=" << Kind << " ";
0b57cec5SDimitry Andric  Loc.print(llvm::errs(), SM);
0b57cec5SDimitry Andric  llvm::errs() << " " << Length << " \"" << L.getSpelling(*this, SM) << "\"\n";
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricstatic inline bool isHTMLNamedCharacterReferenceCharacter(char C) {
0b57cec5SDimitry Andric  return isLetter(C);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricstatic inline bool isHTMLDecimalCharacterReferenceCharacter(char C) {
0b57cec5SDimitry Andric  return isDigit(C);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricstatic inline bool isHTMLHexCharacterReferenceCharacter(char C) {
0b57cec5SDimitry Andric  return isHexDigit(C);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricstatic inline StringRef convertCodePointToUTF8(
0b57cec5SDimitry Andric                                      llvm::BumpPtrAllocator &Allocator,
0b57cec5SDimitry Andric                                      unsigned CodePoint) {
0b57cec5SDimitry Andric  char *Resolved = Allocator.Allocate<char>(UNI_MAX_UTF8_BYTES_PER_CODE_POINT);
0b57cec5SDimitry Andric  char *ResolvedPtr = Resolved;
0b57cec5SDimitry Andric  if (llvm::ConvertCodePointToUTF8(CodePoint, ResolvedPtr))
0b57cec5SDimitry Andric    return StringRef(Resolved, ResolvedPtr - Resolved);
0b57cec5SDimitry Andric  else
0b57cec5SDimitry Andric    return StringRef();
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricnamespace {
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric#include "clang/AST/CommentHTMLTags.inc"
0b57cec5SDimitry Andric#include "clang/AST/CommentHTMLNamedCharacterReferences.inc"
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric} // end anonymous namespace
0b57cec5SDimitry Andric
0b57cec5SDimitry AndricStringRef Lexer::resolveHTMLNamedCharacterReference(StringRef Name) const {
0b57cec5SDimitry Andric  // Fast path, first check a few most widely used named character references.
0b57cec5SDimitry Andric  return llvm::StringSwitch<StringRef>(Name)
0b57cec5SDimitry Andric      .Case("amp", "&")
0b57cec5SDimitry Andric      .Case("lt", "<")
0b57cec5SDimitry Andric      .Case("gt", ">")
0b57cec5SDimitry Andric      .Case("quot", "\"")
0b57cec5SDimitry Andric      .Case("apos", "\'")
0b57cec5SDimitry Andric      // Slow path.
0b57cec5SDimitry Andric      .Default(translateHTMLNamedCharacterReferenceToUTF8(Name));
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry AndricStringRef Lexer::resolveHTMLDecimalCharacterReference(StringRef Name) const {
0b57cec5SDimitry Andric  unsigned CodePoint = 0;
0b57cec5SDimitry Andric  for (unsigned i = 0, e = Name.size(); i != e; ++i) {
0b57cec5SDimitry Andric    assert(isHTMLDecimalCharacterReferenceCharacter(Name[i]));
0b57cec5SDimitry Andric    CodePoint *= 10;
0b57cec5SDimitry Andric    CodePoint += Name[i] - '0';
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return convertCodePointToUTF8(Allocator, CodePoint);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry AndricStringRef Lexer::resolveHTMLHexCharacterReference(StringRef Name) const {
0b57cec5SDimitry Andric  unsigned CodePoint = 0;
0b57cec5SDimitry Andric  for (unsigned i = 0, e = Name.size(); i != e; ++i) {
0b57cec5SDimitry Andric    CodePoint *= 16;
0b57cec5SDimitry Andric    const char C = Name[i];
0b57cec5SDimitry Andric    assert(isHTMLHexCharacterReferenceCharacter(C));
0b57cec5SDimitry Andric    CodePoint += llvm::hexDigitValue(C);
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return convertCodePointToUTF8(Allocator, CodePoint);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::skipLineStartingDecorations() {
0b57cec5SDimitry Andric  // This function should be called only for C comments
0b57cec5SDimitry Andric  assert(CommentState == LCS_InsideCComment);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  if (BufferPtr == CommentEnd)
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  const char *NewBufferPtr = BufferPtr;
04eeddc0SDimitry Andric  while (isHorizontalWhitespace(*NewBufferPtr))
04eeddc0SDimitry Andric    if (++NewBufferPtr == CommentEnd)
0b57cec5SDimitry Andric      return;
04eeddc0SDimitry Andric  if (*NewBufferPtr == '*')
0b57cec5SDimitry Andric    BufferPtr = NewBufferPtr + 1;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricnamespace {
0b57cec5SDimitry Andric/// Returns pointer to the first newline character in the string.
0b57cec5SDimitry Andricconst char *findNewline(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (isVerticalWhitespace(*BufferPtr))
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricconst char *skipNewline(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  if (BufferPtr == BufferEnd)
0b57cec5SDimitry Andric    return BufferPtr;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  if (*BufferPtr == '\n')
0b57cec5SDimitry Andric    BufferPtr++;
0b57cec5SDimitry Andric  else {
0b57cec5SDimitry Andric    assert(*BufferPtr == '\r');
0b57cec5SDimitry Andric    BufferPtr++;
0b57cec5SDimitry Andric    if (BufferPtr != BufferEnd && *BufferPtr == '\n')
0b57cec5SDimitry Andric      BufferPtr++;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferPtr;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricconst char *skipNamedCharacterReference(const char *BufferPtr,
0b57cec5SDimitry Andric                                        const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (!isHTMLNamedCharacterReferenceCharacter(*BufferPtr))
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricconst char *skipDecimalCharacterReference(const char *BufferPtr,
0b57cec5SDimitry Andric                                          const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (!isHTMLDecimalCharacterReferenceCharacter(*BufferPtr))
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricconst char *skipHexCharacterReference(const char *BufferPtr,
0b57cec5SDimitry Andric                                      const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (!isHTMLHexCharacterReferenceCharacter(*BufferPtr))
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricbool isHTMLIdentifierStartingCharacter(char C) {
0b57cec5SDimitry Andric  return isLetter(C);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricbool isHTMLIdentifierCharacter(char C) {
0b57cec5SDimitry Andric  return isAlphanumeric(C);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricconst char *skipHTMLIdentifier(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (!isHTMLIdentifierCharacter(*BufferPtr))
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric/// Skip HTML string quoted in single or double quotes.  Escaping quotes inside
0b57cec5SDimitry Andric/// string allowed.
0b57cec5SDimitry Andric///
0b57cec5SDimitry Andric/// Returns pointer to closing quote.
0b57cec5SDimitry Andricconst char *skipHTMLQuotedString(const char *BufferPtr, const char *BufferEnd)
0b57cec5SDimitry Andric{
0b57cec5SDimitry Andric  const char Quote = *BufferPtr;
0b57cec5SDimitry Andric  assert(Quote == '\"' || Quote == '\'');
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  BufferPtr++;
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    const char C = *BufferPtr;
0b57cec5SDimitry Andric    if (C == Quote && BufferPtr[-1] != '\\')
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricconst char *skipWhitespace(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (!isWhitespace(*BufferPtr))
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricbool isWhitespace(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  return skipWhitespace(BufferPtr, BufferEnd) == BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricbool isCommandNameStartCharacter(char C) {
0b57cec5SDimitry Andric  return isLetter(C);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricbool isCommandNameCharacter(char C) {
0b57cec5SDimitry Andric  return isAlphanumeric(C);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricconst char *skipCommandName(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (!isCommandNameCharacter(*BufferPtr))
0b57cec5SDimitry Andric      return BufferPtr;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric/// Return the one past end pointer for BCPL comments.
0b57cec5SDimitry Andric/// Handles newlines escaped with backslash or trigraph for backslahs.
0b57cec5SDimitry Andricconst char *findBCPLCommentEnd(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  const char *CurPtr = BufferPtr;
0b57cec5SDimitry Andric  while (CurPtr != BufferEnd) {
0b57cec5SDimitry Andric    while (!isVerticalWhitespace(*CurPtr)) {
0b57cec5SDimitry Andric      CurPtr++;
0b57cec5SDimitry Andric      if (CurPtr == BufferEnd)
0b57cec5SDimitry Andric        return BufferEnd;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric    // We found a newline, check if it is escaped.
0b57cec5SDimitry Andric    const char *EscapePtr = CurPtr - 1;
0b57cec5SDimitry Andric    while(isHorizontalWhitespace(*EscapePtr))
0b57cec5SDimitry Andric      EscapePtr--;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    if (*EscapePtr == '\\' ||
0b57cec5SDimitry Andric        (EscapePtr - 2 >= BufferPtr && EscapePtr[0] == '/' &&
0b57cec5SDimitry Andric         EscapePtr[-1] == '?' && EscapePtr[-2] == '?')) {
0b57cec5SDimitry Andric      // We found an escaped newline.
0b57cec5SDimitry Andric      CurPtr = skipNewline(CurPtr, BufferEnd);
0b57cec5SDimitry Andric    } else
0b57cec5SDimitry Andric      return CurPtr; // Not an escaped newline.
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  return BufferEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric/// Return the one past end pointer for C comments.
0b57cec5SDimitry Andric/// Very dumb, does not handle escaped newlines or trigraphs.
0b57cec5SDimitry Andricconst char *findCCommentEnd(const char *BufferPtr, const char *BufferEnd) {
0b57cec5SDimitry Andric  for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
0b57cec5SDimitry Andric    if (*BufferPtr == '*') {
0b57cec5SDimitry Andric      assert(BufferPtr + 1 != BufferEnd);
0b57cec5SDimitry Andric      if (*(BufferPtr + 1) == '/')
0b57cec5SDimitry Andric        return BufferPtr;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  llvm_unreachable("buffer end hit before '*/' was seen");
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric} // end anonymous namespace
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::formTokenWithChars(Token &Result, const char *TokEnd,
0b57cec5SDimitry Andric                               tok::TokenKind Kind) {
0b57cec5SDimitry Andric  const unsigned TokLen = TokEnd - BufferPtr;
0b57cec5SDimitry Andric  Result.setLocation(getSourceLocation(BufferPtr));
0b57cec5SDimitry Andric  Result.setKind(Kind);
0b57cec5SDimitry Andric  Result.setLength(TokLen);
0b57cec5SDimitry Andric#ifndef NDEBUG
0b57cec5SDimitry Andric  Result.TextPtr = "<UNSET>";
0b57cec5SDimitry Andric  Result.IntVal = 7;
0b57cec5SDimitry Andric#endif
0b57cec5SDimitry Andric  BufferPtr = TokEnd;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
04eeddc0SDimitry Andricconst char *Lexer::skipTextToken() {
04eeddc0SDimitry Andric  const char *TokenPtr = BufferPtr;
04eeddc0SDimitry Andric  assert(TokenPtr < CommentEnd);
04eeddc0SDimitry Andric  StringRef TokStartSymbols = ParseCommands ? "\n\r\\@\"&<" : "\n\r";
04eeddc0SDimitry Andric
04eeddc0SDimitry Andricagain:
04eeddc0SDimitry Andric  size_t End =
04eeddc0SDimitry Andric      StringRef(TokenPtr, CommentEnd - TokenPtr).find_first_of(TokStartSymbols);
04eeddc0SDimitry Andric  if (End == StringRef::npos)
04eeddc0SDimitry Andric    return CommentEnd;
04eeddc0SDimitry Andric
04eeddc0SDimitry Andric  // Doxygen doesn't recognize any commands in a one-line double quotation.
04eeddc0SDimitry Andric  // If we don't find an ending quotation mark, we pretend it never began.
04eeddc0SDimitry Andric  if (*(TokenPtr + End) == '\"') {
04eeddc0SDimitry Andric    TokenPtr += End + 1;
04eeddc0SDimitry Andric    End = StringRef(TokenPtr, CommentEnd - TokenPtr).find_first_of("\n\r\"");
04eeddc0SDimitry Andric    if (End != StringRef::npos && *(TokenPtr + End) == '\"')
04eeddc0SDimitry Andric      TokenPtr += End + 1;
04eeddc0SDimitry Andric    goto again;
04eeddc0SDimitry Andric  }
04eeddc0SDimitry Andric  return TokenPtr + End;
04eeddc0SDimitry Andric}
04eeddc0SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lexCommentText(Token &T) {
0b57cec5SDimitry Andric  assert(CommentState == LCS_InsideBCPLComment ||
0b57cec5SDimitry Andric         CommentState == LCS_InsideCComment);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  // Handles lexing non-command text, i.e. text and newline.
0b57cec5SDimitry Andric  auto HandleNonCommandToken = [&]() -> void {
0b57cec5SDimitry Andric    assert(State == LS_Normal);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    const char *TokenPtr = BufferPtr;
0b57cec5SDimitry Andric    assert(TokenPtr < CommentEnd);
0b57cec5SDimitry Andric    switch (*TokenPtr) {
0b57cec5SDimitry Andric      case '\n':
0b57cec5SDimitry Andric      case '\r':
0b57cec5SDimitry Andric          TokenPtr = skipNewline(TokenPtr, CommentEnd);
0b57cec5SDimitry Andric          formTokenWithChars(T, TokenPtr, tok::newline);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric          if (CommentState == LCS_InsideCComment)
0b57cec5SDimitry Andric            skipLineStartingDecorations();
0b57cec5SDimitry Andric          return;
0b57cec5SDimitry Andric
04eeddc0SDimitry Andric      default:
04eeddc0SDimitry Andric        return formTextToken(T, skipTextToken());
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric  };
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  if (!ParseCommands)
0b57cec5SDimitry Andric    return HandleNonCommandToken();
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  switch (State) {
0b57cec5SDimitry Andric  case LS_Normal:
0b57cec5SDimitry Andric    break;
0b57cec5SDimitry Andric  case LS_VerbatimBlockFirstLine:
0b57cec5SDimitry Andric    lexVerbatimBlockFirstLine(T);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  case LS_VerbatimBlockBody:
0b57cec5SDimitry Andric    lexVerbatimBlockBody(T);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  case LS_VerbatimLineText:
0b57cec5SDimitry Andric    lexVerbatimLineText(T);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  case LS_HTMLStartTag:
0b57cec5SDimitry Andric    lexHTMLStartTag(T);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  case LS_HTMLEndTag:
0b57cec5SDimitry Andric    lexHTMLEndTag(T);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  assert(State == LS_Normal);
0b57cec5SDimitry Andric  const char *TokenPtr = BufferPtr;
0b57cec5SDimitry Andric  assert(TokenPtr < CommentEnd);
0b57cec5SDimitry Andric  switch(*TokenPtr) {
0b57cec5SDimitry Andric    case '\\':
0b57cec5SDimitry Andric    case '@': {
0b57cec5SDimitry Andric      // Commands that start with a backslash and commands that start with
0b57cec5SDimitry Andric      // 'at' have equivalent semantics.  But we keep information about the
0b57cec5SDimitry Andric      // exact syntax in AST for comments.
0b57cec5SDimitry Andric      tok::TokenKind CommandKind =
0b57cec5SDimitry Andric          (*TokenPtr == '@') ? tok::at_command : tok::backslash_command;
0b57cec5SDimitry Andric      TokenPtr++;
0b57cec5SDimitry Andric      if (TokenPtr == CommentEnd) {
0b57cec5SDimitry Andric        formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric        return;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric      char C = *TokenPtr;
0b57cec5SDimitry Andric      switch (C) {
0b57cec5SDimitry Andric      default:
0b57cec5SDimitry Andric        break;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      case '\\': case '@': case '&': case '$':
0b57cec5SDimitry Andric      case '#':  case '<': case '>': case '%':
0b57cec5SDimitry Andric      case '\"': case '.': case ':':
0b57cec5SDimitry Andric        // This is one of \\ \@ \& \$ etc escape sequences.
0b57cec5SDimitry Andric        TokenPtr++;
0b57cec5SDimitry Andric        if (C == ':' && TokenPtr != CommentEnd && *TokenPtr == ':') {
0b57cec5SDimitry Andric          // This is the \:: escape sequence.
0b57cec5SDimitry Andric          TokenPtr++;
0b57cec5SDimitry Andric        }
0b57cec5SDimitry Andric        StringRef UnescapedText(BufferPtr + 1, TokenPtr - (BufferPtr + 1));
0b57cec5SDimitry Andric        formTokenWithChars(T, TokenPtr, tok::text);
0b57cec5SDimitry Andric        T.setText(UnescapedText);
0b57cec5SDimitry Andric        return;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      // Don't make zero-length commands.
0b57cec5SDimitry Andric      if (!isCommandNameStartCharacter(*TokenPtr)) {
0b57cec5SDimitry Andric        formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric        return;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      TokenPtr = skipCommandName(TokenPtr, CommentEnd);
0b57cec5SDimitry Andric      unsigned Length = TokenPtr - (BufferPtr + 1);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      // Hardcoded support for lexing LaTeX formula commands
349cc55cSDimitry Andric      // \f$ \f( \f) \f[ \f] \f{ \f} as a single command.
0b57cec5SDimitry Andric      if (Length == 1 && TokenPtr[-1] == 'f' && TokenPtr != CommentEnd) {
0b57cec5SDimitry Andric        C = *TokenPtr;
349cc55cSDimitry Andric        if (C == '$' || C == '(' || C == ')' || C == '[' || C == ']' ||
349cc55cSDimitry Andric            C == '{' || C == '}') {
0b57cec5SDimitry Andric          TokenPtr++;
0b57cec5SDimitry Andric          Length++;
0b57cec5SDimitry Andric        }
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      StringRef CommandName(BufferPtr + 1, Length);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      const CommandInfo *Info = Traits.getCommandInfoOrNULL(CommandName);
0b57cec5SDimitry Andric      if (!Info) {
0b57cec5SDimitry Andric        if ((Info = Traits.getTypoCorrectCommandInfo(CommandName))) {
0b57cec5SDimitry Andric          StringRef CorrectedName = Info->Name;
0b57cec5SDimitry Andric          SourceLocation Loc = getSourceLocation(BufferPtr);
0b57cec5SDimitry Andric          SourceLocation EndLoc = getSourceLocation(TokenPtr);
0b57cec5SDimitry Andric          SourceRange FullRange = SourceRange(Loc, EndLoc);
0b57cec5SDimitry Andric          SourceRange CommandRange(Loc.getLocWithOffset(1), EndLoc);
0b57cec5SDimitry Andric          Diag(Loc, diag::warn_correct_comment_command_name)
0b57cec5SDimitry Andric            << FullRange << CommandName << CorrectedName
0b57cec5SDimitry Andric            << FixItHint::CreateReplacement(CommandRange, CorrectedName);
0b57cec5SDimitry Andric        } else {
0b57cec5SDimitry Andric          formTokenWithChars(T, TokenPtr, tok::unknown_command);
0b57cec5SDimitry Andric          T.setUnknownCommandName(CommandName);
0b57cec5SDimitry Andric          Diag(T.getLocation(), diag::warn_unknown_comment_command_name)
0b57cec5SDimitry Andric              << SourceRange(T.getLocation(), T.getEndLocation());
0b57cec5SDimitry Andric          return;
0b57cec5SDimitry Andric        }
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric      if (Info->IsVerbatimBlockCommand) {
0b57cec5SDimitry Andric        setupAndLexVerbatimBlock(T, TokenPtr, *BufferPtr, Info);
0b57cec5SDimitry Andric        return;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric      if (Info->IsVerbatimLineCommand) {
0b57cec5SDimitry Andric        setupAndLexVerbatimLine(T, TokenPtr, Info);
0b57cec5SDimitry Andric        return;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric      formTokenWithChars(T, TokenPtr, CommandKind);
0b57cec5SDimitry Andric      T.setCommandID(Info->getID());
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    case '&':
0b57cec5SDimitry Andric      lexHTMLCharacterReference(T);
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    case '<': {
0b57cec5SDimitry Andric      TokenPtr++;
0b57cec5SDimitry Andric      if (TokenPtr == CommentEnd) {
0b57cec5SDimitry Andric        formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric        return;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric      const char C = *TokenPtr;
0b57cec5SDimitry Andric      if (isHTMLIdentifierStartingCharacter(C))
0b57cec5SDimitry Andric        setupAndLexHTMLStartTag(T);
0b57cec5SDimitry Andric      else if (C == '/')
0b57cec5SDimitry Andric        setupAndLexHTMLEndTag(T);
0b57cec5SDimitry Andric      else
0b57cec5SDimitry Andric        formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    default:
0b57cec5SDimitry Andric      return HandleNonCommandToken();
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::setupAndLexVerbatimBlock(Token &T,
0b57cec5SDimitry Andric                                     const char *TextBegin,
0b57cec5SDimitry Andric                                     char Marker, const CommandInfo *Info) {
0b57cec5SDimitry Andric  assert(Info->IsVerbatimBlockCommand);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  VerbatimBlockEndCommandName.clear();
0b57cec5SDimitry Andric  VerbatimBlockEndCommandName.append(Marker == '\\' ? "\\" : "@");
0b57cec5SDimitry Andric  VerbatimBlockEndCommandName.append(Info->EndCommandName);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  formTokenWithChars(T, TextBegin, tok::verbatim_block_begin);
0b57cec5SDimitry Andric  T.setVerbatimBlockID(Info->getID());
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  // If there is a newline following the verbatim opening command, skip the
0b57cec5SDimitry Andric  // newline so that we don't create an tok::verbatim_block_line with empty
0b57cec5SDimitry Andric  // text content.
0b57cec5SDimitry Andric  if (BufferPtr != CommentEnd &&
0b57cec5SDimitry Andric      isVerticalWhitespace(*BufferPtr)) {
0b57cec5SDimitry Andric    BufferPtr = skipNewline(BufferPtr, CommentEnd);
0b57cec5SDimitry Andric    State = LS_VerbatimBlockBody;
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  State = LS_VerbatimBlockFirstLine;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lexVerbatimBlockFirstLine(Token &T) {
0b57cec5SDimitry Andricagain:
0b57cec5SDimitry Andric  assert(BufferPtr < CommentEnd);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  // FIXME: It would be better to scan the text once, finding either the block
0b57cec5SDimitry Andric  // end command or newline.
0b57cec5SDimitry Andric  //
0b57cec5SDimitry Andric  // Extract current line.
0b57cec5SDimitry Andric  const char *Newline = findNewline(BufferPtr, CommentEnd);
0b57cec5SDimitry Andric  StringRef Line(BufferPtr, Newline - BufferPtr);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  // Look for end command in current line.
0b57cec5SDimitry Andric  size_t Pos = Line.find(VerbatimBlockEndCommandName);
0b57cec5SDimitry Andric  const char *TextEnd;
0b57cec5SDimitry Andric  const char *NextLine;
0b57cec5SDimitry Andric  if (Pos == StringRef::npos) {
0b57cec5SDimitry Andric    // Current line is completely verbatim.
0b57cec5SDimitry Andric    TextEnd = Newline;
0b57cec5SDimitry Andric    NextLine = skipNewline(Newline, CommentEnd);
0b57cec5SDimitry Andric  } else if (Pos == 0) {
0b57cec5SDimitry Andric    // Current line contains just an end command.
0b57cec5SDimitry Andric    const char *End = BufferPtr + VerbatimBlockEndCommandName.size();
0b57cec5SDimitry Andric    StringRef Name(BufferPtr + 1, End - (BufferPtr + 1));
0b57cec5SDimitry Andric    formTokenWithChars(T, End, tok::verbatim_block_end);
0b57cec5SDimitry Andric    T.setVerbatimBlockID(Traits.getCommandInfo(Name)->getID());
0b57cec5SDimitry Andric    State = LS_Normal;
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  } else {
0b57cec5SDimitry Andric    // There is some text, followed by end command.  Extract text first.
0b57cec5SDimitry Andric    TextEnd = BufferPtr + Pos;
0b57cec5SDimitry Andric    NextLine = TextEnd;
0b57cec5SDimitry Andric    // If there is only whitespace before end command, skip whitespace.
0b57cec5SDimitry Andric    if (isWhitespace(BufferPtr, TextEnd)) {
0b57cec5SDimitry Andric      BufferPtr = TextEnd;
0b57cec5SDimitry Andric      goto again;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  StringRef Text(BufferPtr, TextEnd - BufferPtr);
0b57cec5SDimitry Andric  formTokenWithChars(T, NextLine, tok::verbatim_block_line);
0b57cec5SDimitry Andric  T.setVerbatimBlockText(Text);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  State = LS_VerbatimBlockBody;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lexVerbatimBlockBody(Token &T) {
0b57cec5SDimitry Andric  assert(State == LS_VerbatimBlockBody);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  if (CommentState == LCS_InsideCComment)
0b57cec5SDimitry Andric    skipLineStartingDecorations();
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  if (BufferPtr == CommentEnd) {
0b57cec5SDimitry Andric    formTokenWithChars(T, BufferPtr, tok::verbatim_block_line);
0b57cec5SDimitry Andric    T.setVerbatimBlockText("");
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  lexVerbatimBlockFirstLine(T);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::setupAndLexVerbatimLine(Token &T, const char *TextBegin,
0b57cec5SDimitry Andric                                    const CommandInfo *Info) {
0b57cec5SDimitry Andric  assert(Info->IsVerbatimLineCommand);
0b57cec5SDimitry Andric  formTokenWithChars(T, TextBegin, tok::verbatim_line_name);
0b57cec5SDimitry Andric  T.setVerbatimLineID(Info->getID());
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  State = LS_VerbatimLineText;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lexVerbatimLineText(Token &T) {
0b57cec5SDimitry Andric  assert(State == LS_VerbatimLineText);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  // Extract current line.
0b57cec5SDimitry Andric  const char *Newline = findNewline(BufferPtr, CommentEnd);
0b57cec5SDimitry Andric  StringRef Text(BufferPtr, Newline - BufferPtr);
0b57cec5SDimitry Andric  formTokenWithChars(T, Newline, tok::verbatim_line_text);
0b57cec5SDimitry Andric  T.setVerbatimLineText(Text);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  State = LS_Normal;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lexHTMLCharacterReference(Token &T) {
0b57cec5SDimitry Andric  const char *TokenPtr = BufferPtr;
0b57cec5SDimitry Andric  assert(*TokenPtr == '&');
0b57cec5SDimitry Andric  TokenPtr++;
0b57cec5SDimitry Andric  if (TokenPtr == CommentEnd) {
0b57cec5SDimitry Andric    formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  const char *NamePtr;
0b57cec5SDimitry Andric  bool isNamed = false;
0b57cec5SDimitry Andric  bool isDecimal = false;
0b57cec5SDimitry Andric  char C = *TokenPtr;
0b57cec5SDimitry Andric  if (isHTMLNamedCharacterReferenceCharacter(C)) {
0b57cec5SDimitry Andric    NamePtr = TokenPtr;
0b57cec5SDimitry Andric    TokenPtr = skipNamedCharacterReference(TokenPtr, CommentEnd);
0b57cec5SDimitry Andric    isNamed = true;
0b57cec5SDimitry Andric  } else if (C == '#') {
0b57cec5SDimitry Andric    TokenPtr++;
0b57cec5SDimitry Andric    if (TokenPtr == CommentEnd) {
0b57cec5SDimitry Andric      formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric    C = *TokenPtr;
0b57cec5SDimitry Andric    if (isHTMLDecimalCharacterReferenceCharacter(C)) {
0b57cec5SDimitry Andric      NamePtr = TokenPtr;
0b57cec5SDimitry Andric      TokenPtr = skipDecimalCharacterReference(TokenPtr, CommentEnd);
0b57cec5SDimitry Andric      isDecimal = true;
0b57cec5SDimitry Andric    } else if (C == 'x' || C == 'X') {
0b57cec5SDimitry Andric      TokenPtr++;
0b57cec5SDimitry Andric      NamePtr = TokenPtr;
0b57cec5SDimitry Andric      TokenPtr = skipHexCharacterReference(TokenPtr, CommentEnd);
0b57cec5SDimitry Andric    } else {
0b57cec5SDimitry Andric      formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric  } else {
0b57cec5SDimitry Andric    formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  if (NamePtr == TokenPtr || TokenPtr == CommentEnd ||
0b57cec5SDimitry Andric      *TokenPtr != ';') {
0b57cec5SDimitry Andric    formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  StringRef Name(NamePtr, TokenPtr - NamePtr);
0b57cec5SDimitry Andric  TokenPtr++; // Skip semicolon.
0b57cec5SDimitry Andric  StringRef Resolved;
0b57cec5SDimitry Andric  if (isNamed)
0b57cec5SDimitry Andric    Resolved = resolveHTMLNamedCharacterReference(Name);
0b57cec5SDimitry Andric  else if (isDecimal)
0b57cec5SDimitry Andric    Resolved = resolveHTMLDecimalCharacterReference(Name);
0b57cec5SDimitry Andric  else
0b57cec5SDimitry Andric    Resolved = resolveHTMLHexCharacterReference(Name);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  if (Resolved.empty()) {
0b57cec5SDimitry Andric    formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric  formTokenWithChars(T, TokenPtr, tok::text);
0b57cec5SDimitry Andric  T.setText(Resolved);
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::setupAndLexHTMLStartTag(Token &T) {
0b57cec5SDimitry Andric  assert(BufferPtr[0] == '<' &&
0b57cec5SDimitry Andric         isHTMLIdentifierStartingCharacter(BufferPtr[1]));
0b57cec5SDimitry Andric  const char *TagNameEnd = skipHTMLIdentifier(BufferPtr + 2, CommentEnd);
0b57cec5SDimitry Andric  StringRef Name(BufferPtr + 1, TagNameEnd - (BufferPtr + 1));
0b57cec5SDimitry Andric  if (!isHTMLTagName(Name)) {
0b57cec5SDimitry Andric    formTextToken(T, TagNameEnd);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  formTokenWithChars(T, TagNameEnd, tok::html_start_tag);
0b57cec5SDimitry Andric  T.setHTMLTagStartName(Name);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  BufferPtr = skipWhitespace(BufferPtr, CommentEnd);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  const char C = *BufferPtr;
0b57cec5SDimitry Andric  if (BufferPtr != CommentEnd &&
0b57cec5SDimitry Andric      (C == '>' || C == '/' || isHTMLIdentifierStartingCharacter(C)))
0b57cec5SDimitry Andric    State = LS_HTMLStartTag;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lexHTMLStartTag(Token &T) {
0b57cec5SDimitry Andric  assert(State == LS_HTMLStartTag);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  const char *TokenPtr = BufferPtr;
0b57cec5SDimitry Andric  char C = *TokenPtr;
0b57cec5SDimitry Andric  if (isHTMLIdentifierCharacter(C)) {
0b57cec5SDimitry Andric    TokenPtr = skipHTMLIdentifier(TokenPtr, CommentEnd);
0b57cec5SDimitry Andric    StringRef Ident(BufferPtr, TokenPtr - BufferPtr);
0b57cec5SDimitry Andric    formTokenWithChars(T, TokenPtr, tok::html_ident);
0b57cec5SDimitry Andric    T.setHTMLIdent(Ident);
0b57cec5SDimitry Andric  } else {
0b57cec5SDimitry Andric    switch (C) {
0b57cec5SDimitry Andric    case '=':
0b57cec5SDimitry Andric      TokenPtr++;
0b57cec5SDimitry Andric      formTokenWithChars(T, TokenPtr, tok::html_equals);
0b57cec5SDimitry Andric      break;
0b57cec5SDimitry Andric    case '\"':
0b57cec5SDimitry Andric    case '\'': {
0b57cec5SDimitry Andric      const char *OpenQuote = TokenPtr;
0b57cec5SDimitry Andric      TokenPtr = skipHTMLQuotedString(TokenPtr, CommentEnd);
0b57cec5SDimitry Andric      const char *ClosingQuote = TokenPtr;
0b57cec5SDimitry Andric      if (TokenPtr != CommentEnd) // Skip closing quote.
0b57cec5SDimitry Andric        TokenPtr++;
0b57cec5SDimitry Andric      formTokenWithChars(T, TokenPtr, tok::html_quoted_string);
0b57cec5SDimitry Andric      T.setHTMLQuotedString(StringRef(OpenQuote + 1,
0b57cec5SDimitry Andric                                      ClosingQuote - (OpenQuote + 1)));
0b57cec5SDimitry Andric      break;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric    case '>':
0b57cec5SDimitry Andric      TokenPtr++;
0b57cec5SDimitry Andric      formTokenWithChars(T, TokenPtr, tok::html_greater);
0b57cec5SDimitry Andric      State = LS_Normal;
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric    case '/':
0b57cec5SDimitry Andric      TokenPtr++;
0b57cec5SDimitry Andric      if (TokenPtr != CommentEnd && *TokenPtr == '>') {
0b57cec5SDimitry Andric        TokenPtr++;
0b57cec5SDimitry Andric        formTokenWithChars(T, TokenPtr, tok::html_slash_greater);
0b57cec5SDimitry Andric      } else
0b57cec5SDimitry Andric        formTextToken(T, TokenPtr);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      State = LS_Normal;
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  // Now look ahead and return to normal state if we don't see any HTML tokens
0b57cec5SDimitry Andric  // ahead.
0b57cec5SDimitry Andric  BufferPtr = skipWhitespace(BufferPtr, CommentEnd);
0b57cec5SDimitry Andric  if (BufferPtr == CommentEnd) {
0b57cec5SDimitry Andric    State = LS_Normal;
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  C = *BufferPtr;
0b57cec5SDimitry Andric  if (!isHTMLIdentifierStartingCharacter(C) &&
*bdd1243dSDimitry Andric      C != '=' && C != '\"' && C != '\'' && C != '>' && C != '/') {
0b57cec5SDimitry Andric    State = LS_Normal;
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::setupAndLexHTMLEndTag(Token &T) {
0b57cec5SDimitry Andric  assert(BufferPtr[0] == '<' && BufferPtr[1] == '/');
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  const char *TagNameBegin = skipWhitespace(BufferPtr + 2, CommentEnd);
0b57cec5SDimitry Andric  const char *TagNameEnd = skipHTMLIdentifier(TagNameBegin, CommentEnd);
0b57cec5SDimitry Andric  StringRef Name(TagNameBegin, TagNameEnd - TagNameBegin);
0b57cec5SDimitry Andric  if (!isHTMLTagName(Name)) {
0b57cec5SDimitry Andric    formTextToken(T, TagNameEnd);
0b57cec5SDimitry Andric    return;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  const char *End = skipWhitespace(TagNameEnd, CommentEnd);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  formTokenWithChars(T, End, tok::html_end_tag);
0b57cec5SDimitry Andric  T.setHTMLTagEndName(Name);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  if (BufferPtr != CommentEnd && *BufferPtr == '>')
0b57cec5SDimitry Andric    State = LS_HTMLEndTag;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lexHTMLEndTag(Token &T) {
0b57cec5SDimitry Andric  assert(BufferPtr != CommentEnd && *BufferPtr == '>');
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  formTokenWithChars(T, BufferPtr + 1, tok::html_greater);
0b57cec5SDimitry Andric  State = LS_Normal;
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry AndricLexer::Lexer(llvm::BumpPtrAllocator &Allocator, DiagnosticsEngine &Diags,
0b57cec5SDimitry Andric             const CommandTraits &Traits, SourceLocation FileLoc,
e8d8bef9SDimitry Andric             const char *BufferStart, const char *BufferEnd, bool ParseCommands)
0b57cec5SDimitry Andric    : Allocator(Allocator), Diags(Diags), Traits(Traits),
e8d8bef9SDimitry Andric      BufferStart(BufferStart), BufferEnd(BufferEnd), BufferPtr(BufferStart),
e8d8bef9SDimitry Andric      FileLoc(FileLoc), ParseCommands(ParseCommands),
e8d8bef9SDimitry Andric      CommentState(LCS_BeforeComment), State(LS_Normal) {}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andricvoid Lexer::lex(Token &T) {
0b57cec5SDimitry Andricagain:
0b57cec5SDimitry Andric  switch (CommentState) {
0b57cec5SDimitry Andric  case LCS_BeforeComment:
0b57cec5SDimitry Andric    if (BufferPtr == BufferEnd) {
0b57cec5SDimitry Andric      formTokenWithChars(T, BufferPtr, tok::eof);
0b57cec5SDimitry Andric      return;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    assert(*BufferPtr == '/');
0b57cec5SDimitry Andric    BufferPtr++; // Skip first slash.
0b57cec5SDimitry Andric    switch(*BufferPtr) {
0b57cec5SDimitry Andric    case '/': { // BCPL comment.
0b57cec5SDimitry Andric      BufferPtr++; // Skip second slash.
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      if (BufferPtr != BufferEnd) {
0b57cec5SDimitry Andric        // Skip Doxygen magic marker, if it is present.
0b57cec5SDimitry Andric        // It might be missing because of a typo //< or /*<, or because we
0b57cec5SDimitry Andric        // merged this non-Doxygen comment into a bunch of Doxygen comments
0b57cec5SDimitry Andric        // around it: /** ... */ /* ... */ /** ... */
0b57cec5SDimitry Andric        const char C = *BufferPtr;
0b57cec5SDimitry Andric        if (C == '/' || C == '!')
0b57cec5SDimitry Andric          BufferPtr++;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      // Skip less-than symbol that marks trailing comments.
0b57cec5SDimitry Andric      // Skip it even if the comment is not a Doxygen one, because //< and /*<
0b57cec5SDimitry Andric      // are frequent typos.
0b57cec5SDimitry Andric      if (BufferPtr != BufferEnd && *BufferPtr == '<')
0b57cec5SDimitry Andric        BufferPtr++;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      CommentState = LCS_InsideBCPLComment;
0b57cec5SDimitry Andric      if (State != LS_VerbatimBlockBody && State != LS_VerbatimBlockFirstLine)
0b57cec5SDimitry Andric        State = LS_Normal;
0b57cec5SDimitry Andric      CommentEnd = findBCPLCommentEnd(BufferPtr, BufferEnd);
0b57cec5SDimitry Andric      goto again;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric    case '*': { // C comment.
0b57cec5SDimitry Andric      BufferPtr++; // Skip star.
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      // Skip Doxygen magic marker.
0b57cec5SDimitry Andric      const char C = *BufferPtr;
0b57cec5SDimitry Andric      if ((C == '*' && *(BufferPtr + 1) != '/') || C == '!')
0b57cec5SDimitry Andric        BufferPtr++;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      // Skip less-than symbol that marks trailing comments.
0b57cec5SDimitry Andric      if (BufferPtr != BufferEnd && *BufferPtr == '<')
0b57cec5SDimitry Andric        BufferPtr++;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric      CommentState = LCS_InsideCComment;
0b57cec5SDimitry Andric      State = LS_Normal;
0b57cec5SDimitry Andric      CommentEnd = findCCommentEnd(BufferPtr, BufferEnd);
0b57cec5SDimitry Andric      goto again;
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric    default:
0b57cec5SDimitry Andric      llvm_unreachable("second character of comment should be '/' or '*'");
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  case LCS_BetweenComments: {
0b57cec5SDimitry Andric    // Consecutive comments are extracted only if there is only whitespace
0b57cec5SDimitry Andric    // between them.  So we can search for the start of the next comment.
0b57cec5SDimitry Andric    const char *EndWhitespace = BufferPtr;
0b57cec5SDimitry Andric    while(EndWhitespace != BufferEnd && *EndWhitespace != '/')
0b57cec5SDimitry Andric      EndWhitespace++;
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    // Turn any whitespace between comments (and there is only whitespace
0b57cec5SDimitry Andric    // between them -- guaranteed by comment extraction) into a newline.  We
0b57cec5SDimitry Andric    // have two newlines between C comments in total (first one was synthesized
0b57cec5SDimitry Andric    // after a comment).
0b57cec5SDimitry Andric    formTokenWithChars(T, EndWhitespace, tok::newline);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric    CommentState = LCS_BeforeComment;
0b57cec5SDimitry Andric    break;
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  case LCS_InsideBCPLComment:
0b57cec5SDimitry Andric  case LCS_InsideCComment:
0b57cec5SDimitry Andric    if (BufferPtr != CommentEnd) {
0b57cec5SDimitry Andric      lexCommentText(T);
0b57cec5SDimitry Andric      break;
0b57cec5SDimitry Andric    } else {
0b57cec5SDimitry Andric      // Skip C comment closing sequence.
0b57cec5SDimitry Andric      if (CommentState == LCS_InsideCComment) {
0b57cec5SDimitry Andric        assert(BufferPtr[0] == '*' && BufferPtr[1] == '/');
0b57cec5SDimitry Andric        BufferPtr += 2;
0b57cec5SDimitry Andric        assert(BufferPtr <= BufferEnd);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric        // Synthenize newline just after the C comment, regardless if there is
0b57cec5SDimitry Andric        // actually a newline.
0b57cec5SDimitry Andric        formTokenWithChars(T, BufferPtr, tok::newline);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric        CommentState = LCS_BetweenComments;
0b57cec5SDimitry Andric        break;
0b57cec5SDimitry Andric      } else {
0b57cec5SDimitry Andric        // Don't synthesized a newline after BCPL comment.
0b57cec5SDimitry Andric        CommentState = LCS_BetweenComments;
0b57cec5SDimitry Andric        goto again;
0b57cec5SDimitry Andric      }
0b57cec5SDimitry Andric    }
0b57cec5SDimitry Andric  }
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry AndricStringRef Lexer::getSpelling(const Token &Tok,
a7dea167SDimitry Andric                             const SourceManager &SourceMgr) const {
0b57cec5SDimitry Andric  SourceLocation Loc = Tok.getLocation();
0b57cec5SDimitry Andric  std::pair<FileID, unsigned> LocInfo = SourceMgr.getDecomposedLoc(Loc);
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  bool InvalidTemp = false;
0b57cec5SDimitry Andric  StringRef File = SourceMgr.getBufferData(LocInfo.first, &InvalidTemp);
a7dea167SDimitry Andric  if (InvalidTemp)
0b57cec5SDimitry Andric    return StringRef();
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric  const char *Begin = File.data() + LocInfo.second;
0b57cec5SDimitry Andric  return StringRef(Begin, Tok.getLength());
0b57cec5SDimitry Andric}
0b57cec5SDimitry Andric
0b57cec5SDimitry Andric} // end namespace comments
0b57cec5SDimitry Andric} // end namespace clang