Compilerbau (Einführung)

Wenn Du Dich für Compilerbau interessierst, solltest Du unbedingt das Buch "Crafting Interpreters" von Robert Nystrom lesen. Es ist sehr kurzweilig und äußerst anschaulich geschrieben. Für alle, die sich das Buch nicht leisten können, hat der Autor es hier kostenlos in Html-Form veröffentlicht.

Ein Schüler von mir (Lukas) fragte mich, wie ein Compiler (z.B. EOS oder die Online-IDE) programmiert wird. Leider haben alle Artikel, die ich dazu im Internet finde (mit Ausnahme des oben genannten Buches!), einen recht theoretischen Zugang zum Thema. Daher möchte ich die Sache im Folgenden so erklären, wie ich sie selbst (damals als Schüler in der 12. Jahrgangsstufe) an einem einfachen Compiler gelernt habe.

Ein Compiler ist ein Computerprogramm, das einen in einer Programmiersprache verfassten Programmtext einliest und in eine andere Programmiersprache umwandelt oder direkt ausführt. Er arbeitet üblicherweise in drei Schritten, die nacheinander ausgeführt werden:

Lexer: Der Lexer zerlegt den Programmtext in die kleinsten syntaktisch sinnvollen Einheiten („Tokens“).
Parser: Der Parser analysiert die Liste der Tokens und erstellt daraus eine strukturelle Repräsentation des Programms, üblicherweise einen Baum („Syntaxbaum“ oder „abstract syntax tree“ oder kurz: AST)
Interpreter/Codegenerator: Ein Interpreter kann das als AST übergebene Programm direkt ausführen. Ein Codegenerator kann es in eine andere Programmiersprache (z.B. Maschinensprache) umwandeln.

Im Folgenden wird die Funktionsweise eines Compilers vorgestellt, der mathematische Terme (z.B. 2 * (3 + a) - b ) mit gegebenen Variablenbelegungen zur Laufzeit auswerten kann. In einem zweiten Schritt wird dieser Compiler zu einer einfachen Programmiersprache erweitert, die Wiederholungen, Zuweisungen und eine einfach Print-Anweisung enthält.

Inhalt dieses Tutorials

Fertiges Programm zum Ausprobieren

Ihr wollt sicher sehen, was der Compiler kann, der im Rahmen dieses Tutorials erstellt wird, daher hier gleich ein Blick auf das fertige Programm.

Unser Compiler unten bekommt ein kleines Testprogramm übergeben. Er verarbeitet es in drei Schritten:

Der Lexer zerlegt das Programm in einzelne Tokens.
Der Parser bekommt die Tokenliste und baut daraus den AST (abstract syntax tree) auf.
Der Interpreter führ das Testprogramm aus, indem er den AST geeignet traversiert.

Hier das Testprogramm, das unser Compiler übersetzen wird.:

a = 1;
b = 2; 
while(a < 10) { 
  a = a + 1; 
  b = b * 2; 
  print(b); 
}

Schreibe weitere Testprogramme mit der oben angegebenen Syntax, füge sie unten ein und lasse sie vom Compiler übersetzen und ausführen!