clangd/support/Lex.cpp

*ed8f7882SAaron Ballman//===--- Lex.cpp - extract token stream from source code ---------*- C++-*-===//
*ed8f7882SAaron Ballman//
*ed8f7882SAaron Ballman// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
*ed8f7882SAaron Ballman// See https://llvm.org/LICENSE.txt for license information.
*ed8f7882SAaron Ballman// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
*ed8f7882SAaron Ballman//
*ed8f7882SAaron Ballman//===----------------------------------------------------------------------===//
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman#include "Token.h"
*ed8f7882SAaron Ballman#include "clang/Basic/IdentifierTable.h"
*ed8f7882SAaron Ballman#include "clang/Basic/SourceLocation.h"
*ed8f7882SAaron Ballman#include "clang/Basic/TokenKinds.h"
*ed8f7882SAaron Ballman#include "clang/Lex/Lexer.h"
*ed8f7882SAaron Ballman#include "clang/Lex/LiteralSupport.h"
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballmannamespace clang {
*ed8f7882SAaron Ballmannamespace clangd {
*ed8f7882SAaron Ballman
*ed8f7882SAaron BallmanTokenStream lex(const std::string &Code, const clang::LangOptions &LangOpts) {
*ed8f7882SAaron Ballman  clang::SourceLocation Start;
*ed8f7882SAaron Ballman  // Tokenize using clang's lexer in raw mode.
*ed8f7882SAaron Ballman  // std::string guarantees null-termination, which the lexer needs.
*ed8f7882SAaron Ballman  clang::Lexer Lexer(Start, LangOpts, Code.data(), Code.data(),
*ed8f7882SAaron Ballman                     Code.data() + Code.size());
*ed8f7882SAaron Ballman  Lexer.SetCommentRetentionState(true);
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman  TokenStream Result;
*ed8f7882SAaron Ballman  clang::Token CT;
*ed8f7882SAaron Ballman  // Index into the token stream of original source code.
*ed8f7882SAaron Ballman  Token::Index TokenIndex = 0;
*ed8f7882SAaron Ballman  unsigned LastOffset = 0;
*ed8f7882SAaron Ballman  unsigned Line = 0;
*ed8f7882SAaron Ballman  unsigned Indent = 0;
*ed8f7882SAaron Ballman  for (Lexer.LexFromRawLexer(CT); CT.getKind() != clang::tok::eof;
*ed8f7882SAaron Ballman       Lexer.LexFromRawLexer(CT)) {
*ed8f7882SAaron Ballman    unsigned Offset =
*ed8f7882SAaron Ballman        CT.getLocation().getRawEncoding() - Start.getRawEncoding();
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman    Token Tok;
*ed8f7882SAaron Ballman    Tok.Data = &Code[Offset];
*ed8f7882SAaron Ballman    Tok.Length = CT.getLength();
*ed8f7882SAaron Ballman    Tok.Kind = CT.getKind();
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman    // Update current line number and indentation from raw source code.
*ed8f7882SAaron Ballman    unsigned NewLineStart = 0;
*ed8f7882SAaron Ballman    for (unsigned I = LastOffset; I < Offset; ++I) {
*ed8f7882SAaron Ballman      if (Code[I] == '\n') {
*ed8f7882SAaron Ballman        NewLineStart = I + 1;
*ed8f7882SAaron Ballman        ++Line;
*ed8f7882SAaron Ballman      }
*ed8f7882SAaron Ballman    }
*ed8f7882SAaron Ballman    if (NewLineStart || !LastOffset) {
*ed8f7882SAaron Ballman      Indent = 0;
*ed8f7882SAaron Ballman      for (char C : StringRef(Code).slice(NewLineStart, Offset)) {
*ed8f7882SAaron Ballman        if (C == ' ')
*ed8f7882SAaron Ballman          ++Indent;
*ed8f7882SAaron Ballman        else if (C == '\t')
*ed8f7882SAaron Ballman          Indent += 8;
*ed8f7882SAaron Ballman        else
*ed8f7882SAaron Ballman          break;
*ed8f7882SAaron Ballman      }
*ed8f7882SAaron Ballman    }
*ed8f7882SAaron Ballman    Tok.Indent = Indent;
*ed8f7882SAaron Ballman    Tok.Line = Line;
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman    if (CT.isAtStartOfLine())
*ed8f7882SAaron Ballman      Tok.setFlag(LexFlags::StartsPPLine);
*ed8f7882SAaron Ballman    if (CT.needsCleaning() || CT.hasUCN())
*ed8f7882SAaron Ballman      Tok.setFlag(LexFlags::NeedsCleaning);
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman    Tok.OriginalIndex = TokenIndex++;
*ed8f7882SAaron Ballman    Result.push(Tok);
*ed8f7882SAaron Ballman    LastOffset = Offset;
*ed8f7882SAaron Ballman  }
*ed8f7882SAaron Ballman  Result.finalize();
*ed8f7882SAaron Ballman  return Result;
*ed8f7882SAaron Ballman}
*ed8f7882SAaron Ballman
*ed8f7882SAaron BallmanTokenStream cook(const TokenStream &Code, const LangOptions &LangOpts) {
*ed8f7882SAaron Ballman  auto CleanedStorage = std::make_shared<llvm::BumpPtrAllocator>();
*ed8f7882SAaron Ballman  clang::IdentifierTable Identifiers(LangOpts);
*ed8f7882SAaron Ballman  TokenStream Result(CleanedStorage);
*ed8f7882SAaron Ballman  Result.addPayload(Code.getPayload());
*ed8f7882SAaron Ballman  for (auto Tok : Code.tokens()) {
*ed8f7882SAaron Ballman    if (Tok.flag(LexFlags::NeedsCleaning)) {
*ed8f7882SAaron Ballman      // Remove escaped newlines and trigraphs.
*ed8f7882SAaron Ballman      llvm::SmallString<64> CleanBuffer;
*ed8f7882SAaron Ballman      const char *Pos = Tok.text().begin();
*ed8f7882SAaron Ballman      while (Pos < Tok.text().end()) {
*ed8f7882SAaron Ballman        auto [Char, CharSize] =
*ed8f7882SAaron Ballman            clang::Lexer::getCharAndSizeNoWarn(Pos, LangOpts);
*ed8f7882SAaron Ballman        CleanBuffer.push_back(Char);
*ed8f7882SAaron Ballman        assert(CharSize != 0 && "no progress!");
*ed8f7882SAaron Ballman        Pos += CharSize;
*ed8f7882SAaron Ballman      }
*ed8f7882SAaron Ballman      llvm::StringRef Text = CleanBuffer;
*ed8f7882SAaron Ballman      llvm::SmallString<64> UCNBuffer;
*ed8f7882SAaron Ballman      // A surface reading of the standard suggests UCNs might appear anywhere.
*ed8f7882SAaron Ballman      // But we need only decode them in raw_identifiers.
*ed8f7882SAaron Ballman      //  - they cannot appear in punctuation/keyword tokens, because UCNs
*ed8f7882SAaron Ballman      //    cannot encode basic characters outside of literals [lex.charset]
*ed8f7882SAaron Ballman      //  - they can appear in literals, but we need not unescape them now.
*ed8f7882SAaron Ballman      //    We treat them as escape sequences when evaluating the literal.
*ed8f7882SAaron Ballman      //  - comments are handled similarly to literals
*ed8f7882SAaron Ballman      // This is good fortune, because expandUCNs requires its input to be a
*ed8f7882SAaron Ballman      // reasonably valid identifier (e.g. without stray backslashes).
*ed8f7882SAaron Ballman      if (Tok.Kind == tok::raw_identifier) {
*ed8f7882SAaron Ballman        clang::expandUCNs(UCNBuffer, CleanBuffer);
*ed8f7882SAaron Ballman        Text = UCNBuffer;
*ed8f7882SAaron Ballman      }
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman      Tok.Data = Text.copy(*CleanedStorage).data();
*ed8f7882SAaron Ballman      Tok.Length = Text.size();
*ed8f7882SAaron Ballman      Tok.Flags &= ~static_cast<decltype(Tok.Flags)>(LexFlags::NeedsCleaning);
*ed8f7882SAaron Ballman    }
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman    if (Tok.Kind == tok::raw_identifier) {
*ed8f7882SAaron Ballman      // Cook raw_identifiers into identifier, keyword, etc.
*ed8f7882SAaron Ballman      Tok.Kind = Identifiers.get(Tok.text()).getTokenID();
*ed8f7882SAaron Ballman    } else if (Tok.Kind == tok::greatergreater) {
*ed8f7882SAaron Ballman      // Split the greatergreater token.
*ed8f7882SAaron Ballman      // FIXME: split lessless token to support Cuda triple angle brackets <<<.
*ed8f7882SAaron Ballman      assert(Tok.text() == ">>");
*ed8f7882SAaron Ballman      Tok.Kind = tok::greater;
*ed8f7882SAaron Ballman      Tok.Length = 1;
*ed8f7882SAaron Ballman      Result.push(Tok);
*ed8f7882SAaron Ballman      // Line is wrong if the first greater is followed by an escaped newline!
*ed8f7882SAaron Ballman      Tok.Data = Tok.text().data() + 1;
*ed8f7882SAaron Ballman    }
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman    Result.push(std::move(Tok));
*ed8f7882SAaron Ballman  }
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman  Result.finalize();
*ed8f7882SAaron Ballman  return Result;
*ed8f7882SAaron Ballman}
*ed8f7882SAaron Ballman
*ed8f7882SAaron Ballman} // namespace clangd
*ed8f7882SAaron Ballman} // namespace clang