Архив Тега для: AST

Записи

Разрабатываем свой язык программирования на Java+ANTLR: диагностика ошибок

Это вторая статья из цикла “Разрабатываем свой язык программирования на Java”, первую статью можно прочитать по ссылке.

На текущем этапе у нас есть интерпретатор, способный выполнять команды нашего языка. Однако, этого недостаточно, если мы хотим проверять код на наличие ошибок и понятным способом выводить их пользователю. В данной статье мы рассмотрим, как добавить диагностику ошибок в язык. Проведение анализа ошибок в собственном языке программирования представляет собой важный этап в разработке языка. Использование мощных инструментов, таких как ANTLR, позволяет в короткие сроки реализовать довольно эффективные средства анализа кода, которые помогут выявить потенциальные проблемы в программе на ранних стадиях разработки, что способствует улучшению качества программного обеспечения и повышению производительности разработчика.

Классификация ошибок

Ошибки бывают разные, но в целом их можно разделить на три категории: синтаксические, семантические и ошибки времени исполнения.

Синтаксические ошибки возникают из-за нарушения правил синтаксиса, установленных для конкретного языка программирования. Синтаксические правила определяют, как должны быть организованы инструкции и выражения в коде.

Пример синтаксической ошибки (отсутствует закрывающая кавычка):

println("Hello, World!)

Семантические ошибки возникают когда программа компилируется и даже выполняется, но результат отличается от ожидаемого. Данный тип ошибок является самым сложным из всех. Семантические ошибки могут быть вызваны неправильным пониманием программистом языка или поставленной задачи. Например, если программист плохо изучил приоритет операторов, то он может написать следующий код:

var a = 1 + 2 * 3

Ожидая, что переменная a будет равна 9, но на самом деле она будет равна 7. Это происходит из-за того, что оператор умножения имеет более высокий приоритет, чем оператор сложения. Семантическая ошибка обычно может быть обнаружена во время отладки или обширного тестирования программы.

Ошибки времени исполнения, также известные как исключения (Exceptions), возникают во время выполнения программы. Такие ошибки могут возникнуть из-за неправильного ввода данных, попытки доступа к несуществующему файлу и многих других сценариев. Некоторые ошибки времени исполнения могут быть обработаны в программе, но если этого не сделать, то обычно программа будет аварийно завершена.

Помимо ошибок, важно также обнаруживать потенциальные проблемы или неочевидные ситуации, которые не являются ошибками в строгом смысле, но могут привести к нежелательным последствиям. Например, это может быть неиспользуемая переменная, использование устаревших функций или бесмысленная операция. На все подобные случаи пользователю можно показывать предупреждения (Warnings).

JimpleBaseVisitor

Для выявления ошибок и предупреждений нам понадобится, знакомый из первой статьи абстрактный класс JimpleBaseVisitor (сгенерирован ANTLR), который по-умолчанию реализует интерфейс JimleVisitor. Он позволяет обходить AST-дерево (Abstract Syntax Tree) и на основе анализа его узлов мы будем решать ошибка, предупреждение или нормальная часть кода. По сути, диагностика ошибок почти не отличается от интерпретации кода, кроме случаев когда нам нужно выполнять ввод/вывод или обращаться к внешним ресурсам. Например, если выполняется команда вывода в консоль, то наша задача проверить допустимый ли тип данных передается в качестве аргумента, без непосредственного вывода в консоль.

Создадим класс JimpleDiagnosticTool, который наследует JimleBaseVisitor и будет инкапсулировать в себе всю логику поиска и хранения ошибок:

class JimpleDiagnosticTool extends JimpleBaseVisitor<ValidationInfo> {
    private Set<Issue> issues = new LinkedHashSet<>();
}

record Issue(IssueType type, String message, int lineNumber, int lineOffset, String details) {}

Данный класс содержит в себе список типа Issue, который представляет информацию о конкретной ошибке.

Известно, что каждый метод данного класса должен возвращать значение определенного типа. В нашем случае мы будем возвращать информацию о типе узла в дереве — ValidationInfo. Также данный класс содержит информацию о возможном значении, это поможет нам выявлять некоторые семантические ошибки или ошибки времени выполнения.

record ValidationInfo(ValidationType type, Object value) {}

enum ValidationType {
    /**
     * Expression returns nothing.
     */
    VOID,

    /**
     * Expression is String
     */
    STRING,

    /**
     * Expression is double
     */
    DOUBLE,

    /**
     * Expression is long
     */
    NUMBER,

    /**
     * Expression is boolean
     */
    BOOL,

    /**
     * Expression contains error and analysing in another context no makes sense.
     */
    SKIP,

    /**
     * When object can be any type. Used only in Check function definition mode.
     */
    ANY,

    /**
     * Tree part is function declaration
     */
    FUNCTION_DEFINITION
}

Следует обратить внимание на значение ValidationType.SKIP. Оно будет использоваться в случае если в части дерева была найдена и уже зарегистрирована ошибка, и дальнейший анализ этого узла дерева не имеет смысла. Например, если в выражении суммы один аргумент содержит ошибку, то анализ второго аргумента выражения не будет проводиться.

ValidationInfo checkBinaryOperatorCommon(ParseTree leftExp, ParseTree rightExp, Token operator) {
    ValidationInfo left = visit(leftExp);
    if (left.isSkip()) {
        return ValidationInfo.SKIP;
    }
    ValidationInfo right = visit(rightExp);
    if (right.isSkip()) {
        return ValidationInfo.SKIP;
    }
    // code omitted
}

Listeners vs Visitors

Перед тем как двигаться дальше, давайте посмотрим на еще один сгенерированный ANTLR-ом интерфейс JimpleListener (шаблон Observer), который тоже может быть использован, если нам нужно обходить AST-дерево. В чем разница между ними? Самое большое различие между этими механизмами в том, что методы listener вызываются ANTLR-ом для каждого узла всегда, тогда как методы visitor должны обходить свои дочерние элементы явными вызовами. И если программист не вызывает visit() на дочерних узлах, то эти узлы не посещаются, т.е. у нас есть возможность управлять обходом дерева. Например, в нашей реализации тело функции посещается сначала один раз полностью (режим checkFuncDefinition==true) для выявления ошибок во всей функции (все блоки if и else), и несколько раз с конкретными значениями аргументов:

@Override
ValidationInfo visitIfStatement(IfStatementContext ctx) {
    // calc expression in "if" condition
    ValidationInfo condition = visit(ctx.expression());

    if (checkFuncDefinition) {
        visit(ctx.statement());
        // as it's just function definition check, check else statement as well
        JimpleParser.ElseStatementContext elseStatement = ctx.elseStatement();
        if (elseStatement != null) {
            visit(elseStatement);
        }
        return ValidationInfo.VOID;
    }

    // it's not check function definition, it's checking of certain function call
    if (condition.isBool() && condition.hasValue()) {
        if (condition.asBoolean()) {
            visit(ctx.statement());
        } else {
            JimpleParser.ElseStatementContext elseStatement = ctx.elseStatement();
            if (elseStatement != null) {
                visit(elseStatement);
            }
        }
    }

    return ValidationInfo.VOID;
}

Шаблон Visitor работает очень хорошо, если нам необходимо спроецировать определенное значение для каждого узла дерева. Это именно то, что нам нужно.

Отлов синтаксических ошибок

Для того чтобы найти в коде некоторые синтаксические ошибки, нам необходимо реализовать интерфейс ANTLRErrorListener. Данный интерфейс содержит четыре метода, которые будут вызываться (парсером и/или лексером) в случае ошибки или неопределенного поведения:

interface ANTLRErrorListener {
    void syntaxError(Recognizer<?, ?> recognizer, Object offendingSymbol, int line, int charPositionInLine, String msg, RecognitionException e);
    void reportAmbiguity(Parser recognizer, DFA dfa, int startIndex, int stopIndex, boolean exact, BitSet ambigAlts, ATNConfigSet configs);
    void reportAttemptingFullContext(Parser recognizer, DFA dfa, int startIndex, int stopIndex, BitSet conflictingAlts, ATNConfigSet configs);
    void reportContextSensitivity(Parser recognizer, DFA dfa, int startIndex, int stopIndex, int prediction, ATNConfigSet configs);
}

Название первого метода (syntaxError) говорит само за себя, он будет вызываться в случае синтаксической ошибки. Реализация довольно простая: нам нужно преобразовать информацию об ошибке в объект типа Issue и добавить его в список ошибок:

@Override
void syntaxError(Recognizer<?, ?> recognizer, Object offendingSymbol, int line, int charPositionInLine, String msg, RecognitionException e) {
    int offset = charPositionInLine + 1;
    issues.add(new Issue(IssueType.ERROR, msg, line, offset, makeDetails(line, offset)));
}

Остальные три метода можно игнорировать. Также ANTLR сам реализует этот интерфейс (класс ConsoleErrorListener) и отправляет ошибки в стандартный поток ошибок (System.err). Чтобы отключить его и другие стандартные обработчики, нам необходимо вызвать метод removeErrorListeners у парсера и лексера:

    // убираем стандартные обработчики ошибок
    lexer.removeErrorListeners();
    parser.removeErrorListeners();

Другой тип синтаксических ошибок базируется на правилах конкретного языка. Например, в нашем языке функция идентифицируется по имени и количеству аргументов. Когда анализатор встречает вызов функции, то он проверяет, существует ли функция с таким именем и количеством аргументов. Если нет, то он выдает ошибку. Для этого нам необходимо переопределить метод visitFunctionCall:

@Override
ValidationInfo visitFunctionCall(FunctionCallContext ctx) {
    String funName = ctx.IDENTIFIER().getText();
    int argumentsCount = ctx.expression().size();
    var funSignature = new FunctionSignature(funName, argumentsCount, ctx.getParent());
    // ищем функцию в контексте по сигнатуре (имя+количество аргументов)
    var handler = context.getFunction(funSignature);

    if (handler == null) {
        addIssue(IssueType.ERROR, ctx.start, "Function with such signature not found: " + funName);
        return ValidationInfo.SKIP;
    }

    // code omitted
}

Давайте проверим конструкцию if. Jimple требует, чтобы выражение в условии if было типа boolean:

@Override
ValidationInfo visitIfStatement(IfStatementContext ctx) {
    // visit expression
    ValidationInfo condition = visit(ctx.expression());
    // skip if expression contains error
    if (condition.isSkip()) {
        return ValidationInfo.SKIP;
    }

    if (!condition.isBool()) {
        addIssue(IssueType.WARNING, ctx.expression().start, "The \"if\" condition must be of boolean type only. But found: " + condition.type());
    }

    // code omitted
}

Внимательный читатель заметит, что в данном случае мы добавили предупреждение, а не ошибку. Это сделано из-за того, что наш язык является динамическим и нам не всегда известна точная информация о типе выражения.

Поиск семантических ошибок

Как уже было сказано ранее, семантические ошибки сложны в поиске и часто могут быть найдены только во время отладки или тестирования программы. Однако, некоторые из них можно выявить на этапе компиляции. Например, если мы знаем, что функция X всегда возвращает значение 0, то мы можем выдать предупреждение, если в выражении деления в качестве делителя используется данная функция. Деление на ноль обычно считается семантической ошибкой, поскольку деление на ноль не имеет смысла в математике.

Пример детектирования ошибки “Деление на ноль”: срабатывает в случае когда в качестве делителя используется выражение, которое всегда возвращает значение 0:

ValidationInfo checkBinaryOperatorForNumeric(ValidationInfo left, ValidationInfo right, Token operator) {
    if (operator.getType() == JimpleParser.SLASH && right.hasValue() && ((Number) right.value()).longValue() == 0) {
        // if we have value of right's part of division expression and it's zero
        addIssue(IssueType.WARNING, operator, "Division by zero");
    }

    // code omitted
}

Ошибки времени исполнения

Ошибки времени исполнения также тяжело или даже невозможно обнаружить на этапе компиляции/интерпретации. Однако, некоторые подобные ошибки всё же можно выявить. Например, если функция вызывает сама себя (напрямую или через другую функцию), то это может привести к ошибке переполнения стека (StackOverflow). Первое что нам нужно сделать – это объявить список (Set), где мы будем сохранять функции, которые находятся в процессе вызова в данной момент. Саму проверку можно (и нужно) разместить в методе handleFuncInternal обработки вызова функции. В начале этого метода находится проверка наличия текущего FunctionDefinitionContext (контекст объявления функции) в списке уже вызванных функций, и если да, то регистрируем предупреждение (Warning) и прерываем дальнейшую обработку функции. Если нет, то добавляем текущий контекст в наш список, и далее следует остальная логика. При выходе из handleFuncInternal нужно удалить из списка текущий контекст функции. Здест следует обратить внимание, что в данном случае мы не только выявили потенциальный StackOverflow, но и избавились от этой же ошибки во время проверки кода, а именно при выполении зацикливания метода handleFuncInternal.

Set<FunctionDefinitionContext> calledFuncs = new HashSet<>();

ValidationInfo handleFuncInternal(List<String> parameters, List<Object> arguments, FunctionDefinitionContext ctx) {
    if (calledFuncs.contains(ctx)) {
        addIssue(IssueType.WARNING, ctx.name, String.format("Recursive call of function '%s' can lead to StackOverflow", ctx.name.getText()));
        return ValidationInfo.SKIP;
    }
    calledFuncs.add(ctx);
    
    // other checkings

    calledFuncs.remove(ctx);

    // return resulting ValidationInfo
}

Анализ потока управления/данных

Для более глубокого исследования программного кода, оптимизации и выявления сложных ошибок также используют Анализ потока управления (Control-flow analysis) и Анализ потока данных (Data-flow analysis).

Анализ потока управления фокусируется на понимании того, какие части программы выполняются в зависимости от различных условий и управляющих структур, таких как условные операторы (if-else), циклы и переходы. Он позволяет выявить пути выполнения программы и идентифицировать потенциальные ошибки, связанные с неправильной логикой управления потоком. Например, недостижимый код или потенциальные точки зависания программы.

С другой стороны, анализ потока данных сосредотачивается на том, как данные распространяются и используются внутри программы. Он помогает выявить потенциальные проблемы с данными, такие как использование неинициализированных переменных, зависимости данных и возможные утечки памяти. Анализ потока данных может также обнаруживать ошибки, связанные с неправильными операциями над данными, такими как использование некорректных типов или неправильных (бессмысленных) вычислений.

Резюме

В этой статье мы рассмотрели, как добавить диагностику ошибок и предупреждений в свой язык программирования. Узнали, какие инструменты из коробки предоставляет ANTLR для регистрации синтаксических ошибок. Реализовали обработку некоторых ошибок и потенциальных проблем во время выполнения программы.

Весь исходный код интерпретатора можно посмотреть по ссылке.

Ссылки

21 марта, 2024/от Ruslan Absaliamov

Техника

Разрабатываем свой язык программирования на Java+ANTLR: интерпретатор

Это первая статья из цикла “Разрабатываем свой язык программирования на Java”, который на примере разработки простого языка, покажет полный путь создания языка, а также написания и поддержки инструментов для него. К концу данной статьи реализуем интерпретатор, с помощью которого можно будет выполнять программы на нашем языке.

Любой язык программирования имеет синтаксис, который необходимо преобразовать в удобную для валидации, преобразования и исполнения структуру данных. Как правило, такой структурой данных выступает абстрактное синтаксическое дерево (abstract syntax tree, AST). Каждый узел дерева обозначает конструкцию, встречающуюся в исходном коде. Исходный код разбирается парсером и на выходе получается AST.

Языки разрабатываются давно, и поэтому на текущий момент мы имеем довольно много зрелых инструментов, в том числе генераторы парсеров. Генераторы парсеров на вход принимают описание грамматики конкретного языка, а на выходе получаем парсеры, интерпретаторы и компиляторы.

В данной статье рассмотрим инструмент ANTLR. ANTLR – утилита, на вход которой подается грамматика в виде РБНФ, а на выходе получаем интерфейсы/классы (в нашем случае это java-код) для разбора программ. Список языков, на которых генерируются парсеры, можно найти здесь.

Пример грамматики

Перед тем как перейти к реальной грамматике, попробуем на словах описать некоторые правила типичного языка программирования:

ПЕРЕМЕННАЯ – это ИДЕНТИФИКАТОР
ЦИФРА – это один из символов 0 1 2 3 4 5 6 7 8 9
ЧИСЛО – это один или более элементов типа ЦИФРА
ВЫРАЖЕНИЕ – это ЧИСЛО
ВЫРАЖЕНИЕ – это ПЕРЕМЕННАЯ
ВЫРАЖЕНИЕ – это ВЫРАЖЕНИЕ ‘+’ ВЫРАЖЕНИЕ
ВЫРАЖЕНИЕ – это ‘(‘ ВЫРАЖЕНИЕ ’)’

Как видно из данного списка, языковая грамматика – это набор правил, которые могут иметь рекурсивные связи. Каждое правило может ссылаться на себя или на любое другое правило. ANTLR в своем арсенале имеет множество операторов для описания таких правил.

: метка начала правила
; метка конца правила
| оператор альтернативы
.. оператор диапазона
~ отрицание
. любой символ
= присваивание
(...) подправило
(...)* повторение подправила 0 или более раз
(...)+ Повторение подправила 1 или более раз
(...)? подправило, может отсутствовать
{...} семантические действия (на языке, использующемся в качестве выходного – например, Java)
[...] параметры правила

Примеры правил на ANTLR

Следующий пример описывает правила для целых чисел и чисел с плавающей точкой:

NUMBER : [0-9]+ ;
FLOAT  : NUMBER '.' NUMBER ;

Очень важно понимать, что грамматика описывает только синтаксис языка, на основе которого будет генерироваться парсер. Парсер будет генерировать AST, используя который, можно будет реализовать семантику языка. В предыдущем примере, мы задали правило для разбора целого числа, но не описали какой объем памяти занимает число (8 бит, 16, …), является ли число со знаком или без. Например, в некоторых языках программирования переменную можно начать использовать, не объявив ее. Также можно не объявлять тип переменной, в этом случае тип будет определен автоматически в рантайме. Все эти правила семантики языка не описываются в грамматике, а реализуются в другой части языка.

Лексемы и выражения ANTLR

Грамматика ANTLR состоит из двух типов правил: лексем и выражений, которые используются для определения структуры грамматики и разбора входных данных.

Лексемы (или токены) – это правила, которые определяют отдельные лексические элементы входного языка, такие как числа, идентификаторы, знаки операций и т.д. Каждой лексеме соответствует определенный тип токена, который используется для дальнейшей обработки синтаксическим анализатором. Лексический анализатор сканирует входной текст, разбивает его на лексемы и создает последовательность токенов, которые затем передаются синтаксическому анализатору. Записываются в верхнем регистре (Например: NUMBER, IDENTIFIER).

Выражения – это правила, которые определяют структуру грамматики входного языка. Они описывают, каким образом лексемы связаны между собой и как они могут быть объединены в более сложные конструкции. Выражения могут содержать ссылки на лексемы, а также на другие выражения. Записываются в нотации сamelCase (Например: expression, functionDefinition).

Таким образом, разница между лексемами и выражениями в ANTLR заключается в том, что лексемы определяют отдельные лексические элементы входного языка и преобразуют их в токены, а выражения определяют структуру грамматики и описывают, каким образом лексемы связаны между собой в более сложные конструкции.

Требования к языку

Перед тем как начать реализовывать язык необходимо определиться с набором возможностей, которые он должен поддерживать. Для нашей задачи, в образовательных целях, мы будем использовать простую грамматику. Язык будет поддерживать следующие конструкции:

Переменные (типов String, Long, Double);
Оператор присваивания (=);
Арифметические операции (+, -, *, /);
Операторы сравнения (>, <, >=, <=, ==, !=);
Условные операторы (if, else);
Функции;
Печать в консоль (встроенный оператор println).

Грамматика

Ну и наконец, полное описание грамматики для языка:

grammar Jimple;

// корневое правило грамматики
program: (statement)* EOF;

// список возможных утверждений
statement: variableDeclaration
         | assignment
         | functionDefinition
         | functionCall
         | println
         | return
         | ifStatement
         | blockStatement
         ;

// список возможных выражений
expression: '(' expression ')'                                      #parenthesisExpr
          | left=expression op=(ASTERISK | SLASH) right=expression  #mulDivExpr
          | left=expression op=(PLUS | MINUS) right=expression      #plusMinusExpr
          | left=expression compOperator right=expression           #compExpr
          | IDENTIFIER                                              #idExp
          | NUMBER                                                  #numExpr
          | DOUBLE_NUMBER                                           #doubleExpr
          | STRING_LITERAL                                          #stringExpr
          | functionCall                                            #funcCallExpr
          ;

// описания отдельных выражений и утверждений
variableDeclaration: 'var' IDENTIFIER '=' expression ;

assignment: IDENTIFIER '=' expression ;

compOperator: op=(LESS | LESS_OR_EQUAL | EQUAL | NOT_EQUAL | GREATER | GREATER_OR_EQUAL) ;

println: 'println' expression ;

return: 'return' expression ;

blockStatement: '{' (statement)* '}' ;

functionCall: IDENTIFIER '(' (expression (',' expression)*)? ')' ;

functionDefinition: 'fun' name=IDENTIFIER '(' (IDENTIFIER (',' IDENTIFIER)*)? ')' '{' (statement)* '}' ;

ifStatement: 'if' '(' expression ')' statement  elseStatement? ;

elseStatement: 'else' statement ;

// список токенов
IDENTIFIER          : [a-zA-Z_] [a-zA-Z_0-9]* ;
NUMBER              : [0-9]+ ;
DOUBLE_NUMBER       : NUMBER '.' NUMBER ;
STRING_LITERAL      : '"' (~["])* '"' ;

ASTERISK            : '*' ;
SLASH               : '/' ;
PLUS                : '+' ;
MINUS               : '-' ;

ASSIGN              : '=' ;
EQUAL               : '==' ;
NOT_EQUAL           : '!=' ;
LESS                : '<' ;
LESS_OR_EQUAL       : '<=' ;
GREATER             : '>' ;
GREATER_OR_EQUAL    : '>=' ;

SPACE               : [ \r\n\t]+ -> skip;
LINE_COMMENT        : '//' ~[\n\r]* -> skip;

Как вы уже, наверное, догадались, наш язык называется Jimple (происходит от Jvm Simple). Пожалуй, стоит объяснить некоторые моменты, которые могут быть неочевидными при первом знакомстве с ANTLR.

Метки

При описании правил некоторых операций была использована метка op. Это позволяет нам в дальнейшем использовать эту метку в качестве имени переменной, которая будет содержать значение оператора. В принципе, можно было бы обойтись без указания меток, но в таком случае придется писать дополнительный код, чтобы достать значение оператора из дерева разбора.

compOperator: op=(LESS | LESS_OR_EQUAL | EQUAL | NOT_EQUAL | GREATER | GREATER_OR_EQUAL) ;

Именованные альтернативы правил

В ANTLR при определении правила с несколькими альтернативами каждому из них можно дать имя, и тогда в дереве это будет отдельный узел обработки. Что очень удобно когда нужно вынести обработку каждого варианта правила в отдельный метод. Важно, что наименования нужно задать либо всем альтернативам, либо ни одной из них. Следующий пример демонстрирует, как это выглядит:

expression: '(' expression ')'  #parenthesisExpr
          | IDENTIFIER          #idExp
          | NUMBER              #numExpr

ANTLR сгенерирует следующий код:

public interface JimpleVisitor<T> {
    T visitParenthesisExpr(ParenthesisExprContext ctx);

    T visitIdExp(IdExpContext ctx);

    T visitNumExpr(NumExprContext ctx);
}

Каналы

В ANTLR существует такая конструкция как канал (channel). Обычно каналы используются для работы с комментариями, но так как в большинстве случаев нам не нужно проверять наличие комментариев их необходимо отбросить с помощью -> skip, чем мы и воспользовались. Однако, бывают случаи, когда нам нужно интерпретировать значение комментариев или других конструкций, тогда вы используете каналы. В ANTLR уже есть встроенный канал под названием HIDDEN, который вы можете использовать, или объявить свои каналы для определенных целей. Далее при разборе кода можно будет получить доступ к этим каналам.

Пример объявления и использования канала

channels { MYLINECOMMENT }

LINE_COMMENT : '//' ~[rn]+ -> channel(MYLINECOMMENT) ;

Фрагменты

На ряду с токенами (лексемами) в ANTLR присутствует такое понятие как фрагменты (fragment). Правила с префиксом фрагмента могут быть вызваны только из других правил лексера. Они не являются токенами сами по себе. В следующем примере мы вынесли во фрагменты определения чисел для разных систем счисления.

NUMBER: DIGITS | OCTAL_DIGITS | HEX_DIGITS;
fragment DIGITS: '1'..'9' '0'..'9'*;
fragment OCTAL_DIGITS: '0' '0'..'7'+;
fragment HEX_DIGITS: '0x' ('0'..'9' | 'a'..'f' | 'A'..'F')+;

Таким образом, число в любой системе счисления (например: «123», «0762» или «0xac1») будет рассматриваться как токен NUMBER, а не DIGITS, OCTAL_DIGITS или HEX_DIGITS. В Jimple фрагменты не используются.

Инструменты

Перед тем как приступить к генерации парсера, нам нужно настроить инструменты для работы с ANTLR. Как известно, хороший и удобный инструмент — это половина успеха. Для этого нам понадобится скачать ANTLR библиотеку и написать скрипты для его запуска. Существуют также maven/gradle/IntelliJ IDEA плагины, которые мы не будем использовать в этой статье, но для продуктивной разработки они могут быть полезны.

Нам понадобятся следующие скрипты:

Скрипт antlr4.sh

java -Xmx500M -cp ".:/usr/lib/antlr-4.12.0-complete.jar" org.antlr.v4.Tool $@

Скрипт grun.sh

java -Xmx500M -cp ".:/usr/lib/antlr-4.12.0-complete.jar" org.antlr.v4.gui.TestRig $@

Генерация парсера

Сохраните грамматику в файле Jimple.g4. Далее запустите скрипт следующим образом:

antlr4.sh Jimple.g4 -package org.jimple.lang -visitor

Параметр -package позволяет указать java package, в котором будет сгенерирован код. Параметр -visitor позволяет сгенерировать интерфейс JimpleVisitor, который реализует паттерн Visitor.

После успешного выполнения скрипта в текущей директории появятся несколько файлов: JimpleParser.java, JimpleLexer.java, JimpleListener.java, JimpleVisitor.java. Первые два файла содержат сгенерированный код парсера и лексера соответственно. Остальные два файла содержат интерфейсы для работы с деревом разбора. В этой статье мы будем использовать интерфейс JimpleVisitor, а точнее JimpleBaseVisitor — это также сгенерированный класс, который реализует интерфейс JimpleVisitor и содержит реализации всех методов. Это позволяет переопределить только те методы, которые нам нужны.

Реализация интерпретатора

Наконец-то мы добрались до самого интересного — реализации интерпретатора. Хотя в данной статье не будем затрагивать вопрос проверки кода на ошибки, но ошибки интерпретации все-таки будут реализованы. Для начала, создадим класс JimpleInterpreter с методом eval, на вход которого будет подаваться строка с кодом на Jimple. Далее нам нужно разобрать исходный код на токены с помощью JimpleLexer, затем создать дерево AST, используя JimpleParser.

public class JimpleInterpreter {
    public Object eval(final String input) {
        // разбираем исходный код на токены
        final JimpleLexer lexer = new JimpleLexer(CharStreams.fromString(input));
        // создаем дерево AST
        final JimpleParser parser = new JimpleParser(new CommonTokenStream(lexer));
        // создаем объект класса JimpleInterpreterVisitor
        final JimpleInterpreterVisitor interpreterVisitor = new JimpleInterpreterVisitor(new JimpleContextImpl(stdout));
        // запускаем интерпретатор
        return interpreterVisitor.visitProgram(parser.program());
    }
}

У нас есть синтаксическое дерево. Давайте добавим семантики с помощью написанного нами класса JimpleInterpreterVisitor, который будет обходить AST, вызывая соответствующие методы. Так как корневым правилом нашей грамматики является правило program (см. выше program: (statement)* EOF), то обход дерева начинается именно с него. Для этого вызываем реализованный по умолчанию метод visitProgram у объекта JimpleInterpreterVisitor, на вход которого даем объект класса ProgramContext. Реализация ANTLR состоит из вызова метода visitChildren(RuleNode node), который обходит все дочерние элементы заданного узла дерева, вызывая для каждого из них метод visit.

// код сгенерирован ANTLR
public class JimpleBaseVisitor<T> extends AbstractParseTreeVisitor<T> implements JimpleVisitor<T> {
    @Override public T visitProgram(JimpleParser.ProgramContext ctx) {
        return visitChildren(ctx);
    }

    // другие методы опущены для краткости
}

Как можно заметить, JimpleBaseVisitor — это generic-класс, для которого нужно определить тип обработки каждого узла. В нашем случае это класс Object, так как выражения могут возвращать значения разного типа. Обычно выражение (expression) должно вернуть какое-либо значение, а утверждение (statement) ничего не возвращает. В этом и заключается их различие. В случае утверждения можем возвращать null. Однако, чтобы случайно не столкнуться с NullPointerException, вместо null будем возвращать объект типа Object, который глобально определен в классе JimpleInterpreter:

public static final Object VOID = new Object();

Класс JimpleInterpreterVisitor расширяет класс JimpleBaseVisitor, переопределяя только интересующие нас методы. Рассмотрим реализацию встроенного оператора println, который в грамматике описан как println: 'println' expression ;. Первое, что нужно сделать — это вычислить выражение expression, для этого нам нужно вызвать метод visit и передать в него объект expression из текущего контекста PrintlnContext. В методе visitPrintln нас совершенно не интересует, как вычисляется выражение, за вычисление каждого правила (контекста) отвечает соответствующий метод. Например, для вычисления строкового литерала используется метод visitStringExpr.

public class JimpleInterpreterVisitor extends JimpleBaseVisitor<Object> {
    @Override
    public Object visitPrintln(final JimpleParser.PrintlnContext ctx) {
        final Object result = visit(ctx.expression());
        System.out.println(result);
        return null;
    }

    @Override
    public Object visitStringExpr(final JimpleParser.StringExprContext ctx) {
        // возвращаем строковый литерал
        return cleanStringLiteral(ctx.STRING_LITERAL().getText());
    }

    private String cleanStringLiteral(final String literal) {
        // очистить строку от кавычек
        return literal.length() > 1 ? literal.substring(1, literal.length() - 1) : literal;
    }

    // другие методы опущены для краткости
}

Реализовав только лишь эти методы, интерпретатор уже поддерживает println и строковые литералы, что позволяет нам выполнить код println "Hello, Jimple!".

Запуск интерпретатора

Для запуска интерпретатора нужно создать стандартный метод main, который после небольших проверок, используя класс JimpleInterpreter, будет запускать наш код:

public class MainApp {
    public static void main(String[] args) {
        if (args.length < 1) {
            System.out.println("usage: jimple input.jimple");
            System.exit(1);
        }

        Path path = Paths.get(args[0]);
        if (!Files.exists(path)) {
            System.err.println("File not found: " + path);
            System.exit(1);
        }

        new JimpleInterpreter().eval(path);
    }
}

Детали реализации

Приводить весь код реализации интерпретатора нет необходимости, ссылку на исходники можно будет найти в конце статьи. Однако хочу остановиться на некоторых интересных деталях.

Как уже было упомянуто, интерпретатор построен на основе паттерна Visitor, который посещает узлы дерева AST и выполняет соответствующие инструкции. В процессе выполнения кода в текущем контексте появляются новые идентификаторы (имена переменных и/или функций), которые нужно где-то хранить. Для этого напишем класс JimpleContext, который будет хранить не только эти идентификаторы, но и текущий контекст выполнения вложенных блоков кода и функций, так как локальная переменная и/или параметр функции должны быть удалены после выхода из области их видимости.

@Override
public Object handleFunc(FunctionSignature func, List<String> parameters, List<Object> arguments, FunctionDefinitionContext ctx) {
    Map<String, Object> variables = new HashMap<>(parameters.size());
    for (int i = 0; i < parameters.size(); i++) {
    variables.put(parameters.get(i), arguments.get(i));
    }
    // создаем новую область видимости параметров функции и помещаем ее в стек
    context.pushCallScope(variables);

    // выполнение выражений функций опущены для краткости

    // удаляем область видимости параметров функции из стека
    context.popCallScope();

    return functionResult;
}

В нашем языке переменная хранит значение типа, который определяется во время выполнения. Далее, в следующих инструкциях, этот тип может меняться. По сути, у нас получился язык с динамической типизацией. Однако, некоторая проверка типов все же присутствует, в случаях когда, выполнение операции бессмысленно. Например, число нельзя поделить на строку.

Зачем нужно два прохода?

Первоначальная версия интерпретатора заключалась в реализации метода для каждого правила. Например, если метод обработки объявления функции находит функцию с таким именем (и количеством параметров) в текущем контексте, то выбрасывается исключение, иначе функция добавляется в текущий контекст. Таким же образом работает метод вызова функции. Если функция не найдена, то выбрасывается исключение, иначе функция вызывается. Такой подход работает, но он не позволяет вызывать функцию до её определения. Например, следующий код не будет работать:

var result = 9 + 10

println "Result is " + add(result, 34)

fun add(a, b) {
return a + b
}

В данном случае, у нас есть два подхода. Первый — это требовать определять функции до её использования (не очень удобно для пользователей языка). Второй — выполнять два прохода. Первый проход нужен для того, чтобы найти все функции, которые были определены в коде. А второй — непосредственно для выполнения кода. В своей реализации выбрал второй подход. Следует перенести реализацию метода visitFunctionDefinition в отдельный класс, который расширяет уже известный нам сгенерированный класс JimpleBaseVisitor<T>.

// класс находит все функции в коде и регистрирует их в контексте
public class FunctionDefinitionVisitor extends JimpleBaseVisitor<Object> {
    private final JimpleContext context;
    private final FunctionCallHandler handler;

    public FunctionDefinitionVisitor(final JimpleContext context, final FunctionCallHandler handler) {
        this.context = context;
        this.handler = handler;
    }

    @Override
    public Object visitFunctionDefinition(final JimpleParser.FunctionDefinitionContext ctx) {
        final String name = ctx.name.getText();
        final List<String> parameters = ctx.IDENTIFIER().stream().skip(1).map(ParseTree::getText).toList();
        final var funcSig = new FunctionSignature(name, parameters.size());
        context.registerFunction(funcSig, (func, args) -> handler.handleFunc(func, parameters, args, ctx));
        return VOID;
    }
}

Теперь у нас есть класс, который можем использовать перед непосредственным запуском класса интерпретатора. Он будет наполнять наш контекст определениями всех функций, которые будем вызывать в классе интерпретатора.

Как выглядит AST?

Для того, чтобы визуализировать AST, нужно воспользоваться утилитой grun (см. выше). Для этого следует запустить grun с параметрами Jimple program -gui (первый параметр – имя грамматики, второй – имя правила). В результате откроется окно с деревом AST. Перед выполнением этой утилиты важно скомпилировать сгенерированный ANTLR-ом код.

# сгенерировать парсер
antlr4.sh Jimple.g4
# скомпилировать сгенерированный код
javac -cp ".:/usr/lib/jvm/antlr-4.12.0-complete.jar" Jimple*.java
# запустить grun
grun.sh Jimple program -gui
# ввести код: "println "Hello, Jimple!"
# нажать Ctrl+D (Linux) или Ctrl+Z (Windows)

Для Jimple-кода println "Hello, Jimple!" сгенерируется следующее AST:

Резюме

В данной статье, вы познакомились с таким понятиями как лексический и синтаксический анализаторы. Использовали инструмент ANTLR для генерации таких анализаторов. Узнали, как писать грамматику ANTLR. В итоге смогли создать простой язык, а именно разработали интерпретатор для него. В качестве бонуса смогли визуализировать AST.

Весь исходный код интерпретатора можно посмотреть по ссылке.

Ссылки

31 августа, 2023/от Ruslan Absaliamov

Записи

Разрабатываем свой язык программирования на Java+ANTLR: диагностика ошибок

Классификация ошибок

JimpleBaseVisitor

Listeners vs Visitors

Отлов синтаксических ошибок

Поиск семантических ошибок

Ошибки времени исполнения

Анализ потока управления/данных

Резюме

Ссылки

Разрабатываем свой язык программирования на Java+ANTLR: интерпретатор

Пример грамматики

Примеры правил на ANTLR

Лексемы и выражения ANTLR

Требования к языку

Грамматика

Метки

Именованные альтернативы правил

Каналы

Пример объявления и использования канала

Фрагменты

Инструменты

Генерация парсера

Реализация интерпретатора

Запуск интерпретатора

Детали реализации

Зачем нужно два прохода?

Как выглядит AST?

Резюме

Ссылки

Телефон

Fax

Адрес

Время работы

Архив Тега для: AST

Записи

Класси­фи­кация ошибок

JimpleBaseVisitor

Listeners vs Visitors

Отлов синтак­си­ческих ошибок

Поиск семан­ти­ческих ошибок

Ошибки времени исполнения

Анализ потока управления/данных

Резюме

Ссылки

Пример грамматики

Примеры правил на ANTLR

Лексемы и выражения ANTLR

Требо­вания к языку

Грамматика

Метки

Имено­ванные альтер­нативы правил

Каналы

Пример объяв­ления и исполь­зо­вания канала

Фрагменты

Инстру­менты

Генерация парсера

Реали­зация интерпретатора

Запуск интер­пре­татора

Детали реали­зации

Зачем нужно два прохода?

Как выглядит AST?

Резюме

Ссылки

Телефон

Fax

Адрес

Время работы

Классификация ошибок

Отлов синтаксических ошибок

Поиск семантических ошибок

Требования к языку

Именованные альтернативы правил

Пример объявления и использования канала

Инструменты

Реализация интерпретатора

Запуск интерпретатора

Детали реализации