vak: (Знайка)
[personal profile] vak
Оказывается, кланг умеет выгружать синтаксическое дерево в формате JSON. Так что на парсере на первых порах можно сэкономить. Например, возьмём один из файлов ядра Unix v7.
$ git clone https://github.com/besm6/v7besm
$ cd v7besm/kernel
$ clang -target i486-unknown-linux-gnu -ffreestanding -Xclang -ast-dump=json -fsyntax-only -I../include -DKERNEL utab.c > utab.ast
Вот такой файл utab.ast получается: gist.github.com/sergev/a99a668b1419dc6dee584dea9c322fd5

Date: 2025-05-09 01:05 (UTC)
spamsink: (Default)
From: [personal profile] spamsink
Боюсь, парсить все теги JSON и собирать всё это в разнообразные структуры в зависимости от их сочетания дороже выйдет.

Date: 2025-05-09 05:45 (UTC)
juan_gandhi: (Default)
From: [personal profile] juan_gandhi
Очень хорошая идея. Мне вот это ещё понравилось:
      "loc": {
        "offset": 4699,
        "line": 130,
        "col": 14,
        "tokLen": 5,
        "includedFrom": {
          "file": "utab.c"
        }
      }


Я вечно размышлял, как позицию записывать, когда парсишь. А просто: и так, и так.

Date: 2025-05-09 06:01 (UTC)
archaicos: Шарж (Default)
From: [personal profile] archaicos
Там же вроде среди исходников УНИХ есть и K&R-Си компилятор об нескольких проходах. Он генерирует дерево в каком-то виде.

Date: 2025-05-09 07:48 (UTC)
chaource: (Default)
From: [personal profile] chaource
https://gist.github.com/sergev/a99a668b1419dc6dee584dea9c322fd5#file-v7-besm-utab-ast-L177

А вотъ это ой-ой-ой:

"qualType": "struct (unnamed struct at ../include/sys/param.h:121:9) *"


Какъ будемъ это чудо-юдо парсить? Потому что дальше тамъ будетъ еще и такое:

"qualType": "unsigned short"
"qualType": "int[6]"