Generative Transformationen – Musikalische Tropenontologie

Schenkers Ideen fanden über den populärsten Dissidenten und über den rührigsten Dirigenten und Komponisten Amerikas, über Noam Chomsky und Leonard Bernstein, den Weg in die moderne Musiklinguistik. Noam Chomsky entwickelte am Massachusetts Institute of Technology in den 1950er- und 1960er-Jahren eine linguistische Theorie, welche den in Amerika allgemein vorherrschenden Behaviorismus in den Grundfesten erschüttern sollte. Die Grundlagen dazu hatte er 1955 bereits mit seiner Dissertation gelegt[1].

Chomsky wächst in einem linguistischen Umfeld auf, das von dem epochalen Werk Methods in Structural Linguistics (1951)[2] seines akademischen Lehrers Zellig Harris bestimmt wird. Der Sohn jüdisch-russischer Eltern mit Wurzeln in der Ukraine verbindet den amerikanischen Deskriptivismus, der linguistische Forschung auf die systematische Beschreibung äusserlicher sprachlicher Formen begrenzt, mit mathematischen Regelwerken und Elementen der Mengenlehre. Aus den gängigen Untersuchungen zu den amerikanischen Indianersprachen wächst so eine komplexe und abstrakte Theorie des strukturellen Aufbaus von Sprachen, die sich strikte auf das Beschreiben äusserlicher Strukturen beschränkt – deshalb auch der Name «Strukturalismus», der die Denkrichtung bezeichnet.

Chomsky führt die Forschung aus der sich abzeichnenden Sackgasse des Ignorierens wichtiger semantischer Aspekte hinaus, indem er die Fragen nach dem Verstehen von Sprache und der Sprachkompetenz neu stellt. Ein kompetenter Sprecher – versucht er aufzuzeigen – weiss grundsätzlich mehr über eine Sprache, als sich mit einer Analyse in der Art von Harris herleiten lässt.

Chomskys illustratives Beispiel aus dem Buch Syntactic Structures, der Veröffentlichung seiner Dissertation aus dem Jahr 1957, sieht folgendermassen aus. Man betrachte die drei Sätze:

The shooting of the hunters (das Schiessen der Jäger)
The growling of lions (das Knurren der Löwen)
The raising of flowers (das Wachsen der Blumen)

Sie alle haben die gleiche Oberflächenstruktur, nämlich:

Das x-ing der y

Offensichtlich lässt sich der erste Satz auf zwei verschiedene Arten deuten: Zum einen kann damit gemeint sein, dass die Jäger schiessen. Zum andern ist es aber auch möglich, ihn so zu deuten, dass auf die Jäger geschossen wird, eine zwar ein wenig frivole, aber auch im Deutschen grammatikalisch korrekte Deutung. Die sogenannte syntaktische Tiefenstruktur ist in diesem Fall unterschiedlich:

Später, in Aspects of the Theory of Syntax (1965)[3] stellt sich Chomsky die an sich einfache Frage, wie es möglich sein kann, dass ein Mensch sich in der kurzen Zeit der frühen Kindheit eine derart komplexe Kompetenz wie den Umgang mit einer Sprache erwerben kann. Im Hintergrund stehen dabei erhebliche Zweifel an der behavioristischen Doktrin, dass auch intellektuelle Leistungen sich auf ein Reiz/Reaktionsschema und den Wissenserwerb durch Lernen zurückführen lassen. Eine solche scheint die Geschwindigkeit nicht zu erklären, mit der ein Kind eine Sprache erwirbt und in der Lage ist, eine prinzipiell unendliche Menge an sinnvollen Sätzen zu generieren und grammatikalische Äusserungen zu machen, die es zuvor noch nie gehört hat. Chomsky zieht den Schluss, dass der Mensch über eine angeborene Sprachfähigkeit verfügen muss, die von der Sprache, die er als Kind lernt, unabhängig ist. Diese angeborene sprachunabhängige Fähigkeit will er in der Form einer Universalgrammatik beschreiben.

Da die Grammatik von Chomsky den Akzent auf dem Erzeugen oder eben Generieren von Sätzen legt, und diesen Vorgang des Erzeugens beleuchten will, hat sie den Zusatz «generativ» erhalten. Eine übliche Abkürzung für die Theorie ist gTG für «generative Transformationsgrammatik». Die gTG setzt sich klar vom Vorläufer Strukturalismus ab, der den Akzent auf das äusserliche Beschreiben von Sätzen legt. Transformationsgrammatik heisst das System, weil es Regeln besitzt, mit deren Hilfe sich die von einer einzelnen Sprache unabhängigen Tiefenstrukturen in Oberflächenstrukturen für eine bestimmte Sprache, etwa Deutsch, Englisch oder Chinesisch, überführen – eben transformieren – lassen.

Das Resultat der Suche nach einem universalen Schema für den syntaktischen Aspekt der Sprache ist das «x-bar-Schema», das für alle Sprachen Gültigkeit haben soll. Alle Bausteine eines Satzes, seien es sogenannte Nominalphrasen, Verbalphrasen oder Präpositionalphrasen, besitzen einen sogenannten Kopf (Head) und Erweiterungen: So ist zum Beispiel der Kopf der Nominalphrase «der Wiener Komponist Schubert» der Ausdruck «Schubert». Das heisst, die Nominalphrase spaltet sich in die zwei Elemente «der Wiener Komponist» und «Schubert» auf, und die Erweiterungen spalten sich wiederum in weitere Elemente auf («der Wiener» und «Komponist»). Daraus ergibt sich für die syntaktische Analyse eine Baumstruktur mit Verzweigungsstellen, an denen immer genau zwei Äste ansetzen.

Der Satz «Der Wiener Komponist Schubert schrieb zahlreiche deutsche Tänze» lässt sich auf Basis des x-bar-Schemas folgendermassen darstellen:

Chomsky-Analyse des Satzes «Der Wiener
Komponist Schubert schrieb zahlreiche deutsche Tänze»;
der Baum verzweigt sich an jedem Knotenpunkt nur einmal.

Die Idee einer genetisch festgelegten Sprachkompetenz ist aus verständlichen Gründen vor allem von behavioristisch orientierten Linguisten aufs Heftigste angezweifelt worden; sie missachtet ihre Grundvoraussetzung, nämlich die Überzeugung, dass der Mensch von Geburt an ein «unbeschriebenes weisses Blatt ist» und durch Konditionierung beliebige Fertigkeiten erwerben kann. (Moderne Populärvertreter der These sind sinnigerweise die Väter von mehreren Töchtern: Mit der gezielten Schachausbildung seiner Töchter Sofia, Judith und Susan wollte Vater Polgar beweisen, dass mit sorgfältiger Erziehung alles möglich ist – mit Erfolg: Judith und Susan führten die Rangliste der weltbesten Schachspielerinnen an. Vater Williams wiederum plante das gleiche für seine Töchter Serena und Venus im Frauentennis. Die beiden dominieren lange die WTA-Weltrangliste nach Belieben. Trotz der unbestrittenen und spektakulären Schach- und Tenniserfolge wird heute jedoch kaum noch bezweifelt, dass der Mensch auch über angeborene Fähigkeiten verfügt.)

Chomskys Theorien üben bis heute in allen Kreisen, die sich mit Sprachen und Symbolsystemen beschäftigten, eine starke Faszination aus. Aus der Warte des Musiktheoretikers ist zudem, wie bereits erwähnt, eine gewisse äussere Ähnlichkeit der Grammatikbäume und des x-bar-Schemas mit Schenkerschen Analysen unübersehbar. So war es bloss ein Frage der Zeit, bis die ersten Versuche unternommen werden sollten, die Resultate der linguistischen Forschungen auf den Gebieten der Transformationsgrammatik auf die Musik zu übertragen, in der Hoffnung, die sprachlichen oder grammatikalischen Eigenschaften von Musik endlich dingfest machen zu können.

Das Vorspiel dazu findet 1973 im Rahmen von sechs Vorlesungen an der Harvard Universität unter dem Titel «Musik – die offene Frage»[4] statt – unter denkwürdigen Umständen. Als Redner amtet niemand geringeres als der charismatische Komponist und Dirigent Leonard Bernstein, der Schöpfer der «West Side Story». Im Vorwort der gedruckten Fassung der Vorträge beschreibt er das dannzumal anwesende Publikum als ein Mischung aus «Studenten, Leuten ohne höhere Bildung, dem Wachmann von nebenan, meiner Mutter, Musikfachleuten ohne Verständnis für Sprachwissenschaft, ihren Gegenstücken, Wissenschaftlern ohne Interesse für Poesie, ihren Gegenstücken». Sie alle will er entführen auf eine «Reise ins Chomsky-Land».

Gleich in der ersten Vorlesung weist er den Kurs:

Jahr für Jahr erhärtet sich in zunehmendem Masse die Hypothese der Sprachwissenschaftler, wonach es eine angeborene grammatische Befähigung gibt (wie Chomsky das nennt), ein genetisch gesteuertes Sprachvermögen, das universell ist. Es ist dies eine Befähigung, die nur dem Menschen eigen ist; sie kündet von der einzigartigen Macht menschlichen Geistes.

Nun, die Musik tut nichts anderes.

Aber wie ergründen wir musikalische Universalität mit einem so wissenschaftlichen Werkzeug wie dem der sprachlichen Analogie? Musik, sagt man, ist ein Umschreibungsvorgang, eine Art geheimnisvoller Versinnlichung unseres zuinnerst empfindenden Seins. Musik lässt sich leichter in schillernder Prosa darstellen als in Form von Gleichungen. Selbst ein so bedeutender Wissenschaftler wie Einstein sagte: «Das Schönste, das wir erleben können, ist das Geheimnisvolle.» Warum versuchen dann so viele von uns unaufhörlich, die Schönheiten der Musik zu erklären, und berauben sie dabei scheinbar ihrer Geheimnisse? In Wirklichkeit ist die Musik nicht nur eine geheimnisvolle und umschreibende Kunst, sie ist auch ein Kind der Naturwissenschaft. Sie besteht aus mathematisch messbaren Bestandteilen: Schwingungszahlen und Dauern, Dämpfungseinheiten und Intervallen. Deshalb muss jeder Versuch, Musik zu erklären, aus einer Verbindung von Mathematik und Ästhetik bestehen, so wie die Sprachlehre Mathematik mit Philosophie, mit Soziologie oder mit was sonst immer verbindet. Gerade aus diesem interdisziplinären Grund bin ich von der neuen Sprachlehre so gefesselt: sie verschafft einen neuen Zutritt zur Musik. Warum also nicht ein Forschen in sprachmusikalischer Richtung, so wie es ja bereits sprachpsychologische und sprachsoziologische Forschungsrichtungen gibt?[5]

Was Bernstein so fasziniert, ist die Aussicht, eine Universalgrammatik der Musik zu finden und so die viel gesuchte Brücke zwischen den verschiedenen Musikkulturen der Welt schlagen zu können: Die Realisierung des uralten Traums von der Einheit der Menschheit scheint auf dem Gebiet des seelischen Erlebens von Musik plötzlich greifbar zu werden, dank dem Werk Chomskys, dem der überschwängliche Bernstein auf der Suche nach dem Menschheitsverbindenden einen «beethovenschen Impuls» andichtet, den scharfsinnig-filigranen Intellektuellen also ironischerweise ausgerechnet zum romantischen Gefühlsgenie hochstilisiert.

In der Umsetzung der These hat der musikalische Tausendsassa allerdings weniger Glück. So entwickelt er etwa auf folgende Art Parallelen zu Transformationsregeln: Der Satz «Jack liebt Jill» werde von einem aufsteigenden Dur-Dreiklang repräsentiert. Die Verneinung «Jack liebt Jill nicht» leitet Bernstein ab, indem er den Dur-Dreiklang in einen Moll-Dreiklang verwandelt – schliesslich ist es ja traurig, dass Jack die sympatische Jill nicht liebt. Die wilde Vermischung von syntaktischen Strukturen, einer Gleichsetzung eines abstrakten Operators («nicht») mit einer konkreten Situation und der emotionalen Reaktion eines Hörers auf einen Satz mutet rührend naiv an. Um die Konfusionen noch zu vergrössern, korreliert Bernstein schön der Reihe nach den ersten Ton mit «Jack», den zweiten mit «liebt» und den dritten mit «Jill (nicht)», womit der nicht-Operator irgendwo mit «Jill» gleichgeschaltet wird und die Moll-Terz auf das Verb «lieben» fällt. Das Ganze mutet an wie eine Art lingustischer Kubismus, wie die Porträts von Picasso, in denen eine Nase von der Seite, ein Auge von oben und der Mund von hinten gemalt sind. Vermutlich war es Bernstein auch nicht sooo ganz ernst mit den Analogien.

Ernster zu nehmen sind da schon seine Analogien zu den Transformationsregeln, vor allem weil bei der Entwicklung eines musikalischen Pendants nicht auf Bedeutungen zurückgegriffen werden muss, sondern man sich auf das Spiel mit Formen beschränken kann (Bernstein bezieht sich auf ein Diagramm, das in etwa so aussieht):

Musik
^
C Tiefenstruktur
(«Prosa»)
^
B Grundgefüge
^
A Grundelemente

Auf der untersten Sprosse (A) sind die musikalischen Grundelemente dem schöpferischen Willen zur Auswahl: Tonhöhen; Tonarten mit den ihnen eigenen Tonleitern und Akkorden: Zeitmasse mit ihren sämtlichen motorischen Folgeerscheinungen wie Tempi etc. Aus ihnen entstehen (B) gewisse Kombinationen: melodische Motive und Phrasen, Akkordfortschreitungen, rhythmische Figuren, und so fort. Sie sind das musikalische «Grundgefüge», auf der gleichen Sprossenhöhe wie das Grundgefüge der Sprachleiter. Dieses Grundgefüge kann durch Zurechtrückung und Vertauschung in das verwandelt werden (C), was wir musikalische Prosa genannt haben. Und hier stimmen die beiden Teile der Doppelleiter nicht mehr überein: Wie Sie sehen ist ein Prosa-Satz in der Sprache bereits eine Oberflächenstruktur, während musikalische Prosa nur als Tiefenstruktur denkbar ist. Aber darauf waren wir ja vorbereitet. Wir haben von Anfang an gewusst, dass Musik niemals Prosa sein kann. Wagen wir also unseren Höhenflug, und unser Wiederverwandlungsprozess wird jene ästhetische Oberfläche hervorbringen, die wir Musik nennen.[6]

Den Unterschied zur Sprache sieht Bernstein also in der Tatsache, dass in letzterer die Prosa erst auf der Oberflächenstruktur ansetzt, während sie in der Musik eine Eigenschaft der Tiefenstruktur ist.

Im zweiten Teil der zweiten Vorlesung (Titel: «Musikalische Satzlehre») illustriert Bernstein seine Überlegungen mit einem Beispiel, das zum Wahrzeichen aller folgenden Theorien der musikalischen Chomsky-Schule werden sollte: Dem Beginn von Mozarts g-Moll-Sinfonie, KV 550.[7]

Bernstein analysiert den Beginn des ersten Satzes und kommt zum Schluss, dass die erste schwere Zeit erst auf der Eins des dritten Taktes zu finden ist: Auch der weitere Verlauf wird von Bernstein einer akribischen Prüfung unterzogen. Dabei stellt sich heraus, dass im Takt 10 eine Interpretation als starker und schwacher Takt im Widerstreit liegen. Alle diese Analysen sieht Bernstein als eine Anwendung von Transformationsregeln. Sein Fazit:

Es müsste jetzt jedem klar sein, dass sich die Oberflächenstruktur, die wir untersucht haben, im lebhaften Widerspruch zur unausstehlich langweiligen symphonischen Tiefenstruktur steht, die ich als ihre Grundlage angenommen habe; und dass dieser Widerstreit eine syntaktische Mehrdeutigkeit in Mozarts musikalischem Phrasenbau hervorruft, die sich aus unsymmetrischen Eingriffen ergibt, aber völlig kontrolliert ist, klassisch in Schranken gehalten durch die Ausgewogenheit der Proportionen der Mozartschen Sonatenform.[8]

Ob Bernsteins Resultate nun Hand und Fuss haben ist nicht entscheidend. Wichtig ist, dass er andere mit der Nase darauf gestossen hat, dass sich die Theorien Chomskys unter Umständen für ein tieferes Verständnis der syntaktischen Charakteristiken der Musik dienstbar machen lassen.

Über den Umweg eines von Bernsteins Vorlesungen motivierten Seminars beschäftigen sich zwei Wissenschaftler – noch im Studium – mit der Verbindung der Transformationsgrammatik mit Musik. Zehn Jahre später (1983) legen sie einen der modernen Klassiker der amerikanischen Musikästhetik des 20. Jahrhunderts vor, die «generative Theorie der tonalen Musik» («A Generative Theory of Tonal Music»[9]), kurz GTTM.

Einer der beiden, Fred Lerdahl, ist von Haus aus Komponist mit einem Hang zur Theorie und beschlagen im Umgang mit formalen Systemen. Beim anderen, Ray Jackendoff, handelt es sich um einen Linguisten und versierten Freizeitmusiker. Das Vorwort von GTTM beginnt folgendermassen:

Im Herbst 1973 hielt Leonard Bernstein an der Harvard Universität die Charles Eliot Norton Lectures. Inspiriert von den Einblicken, welche die transformational-generative («chomskysche») Linguistik in die Struktur der Sprache erlaubte, plädierte er für eine Suche nach einer «musikalischen Grammatik», welche die musikalischen Fähigkeiten des Menschen erklären könnte. Als Resultat der Vorlesungen beschäftigten sich zahlreiche Leute in der Region von Boston vermehrt mit der Idee einer Verbindung von Musiktheorie und Linguistik. In der Folge riefen Irving Singer und David Epstein an der Harvard Universität im Herbst 1974 ein Seminar zu Musik, Linguistik und Ästhetik ins Leben.[10]

Eben dieses Seminar bildet den Grundstein der Zusammenarbeit von Lerdahl und Jackendoff. Das Resultat des unablässigen Dialoges ist ein Text, der das selber gestellte Thema mit ungewohnt hoher Präzision aufarbeitet.

Zum Rückgriff auf die generative Transformationsgrammatik kommt bei Lerdahl und Jackendoff aber ein zweites wichtiges theoretisches Rahmenwerk: die kognitive Psychologie. Ihr Ausgangspunkt für die Analyse von Musik ist nämlich die Art, wie diese im Geist eines kompetenten Hörers repräsentiert ist. Dabei sollen durchaus Aussagen darüber gemacht werden, wie das menschliche Hirn Musik verarbeitet. Das Buch nimmt das Unternehmen in Angriff, das zu modellieren, was im Englischen als «musical mind» bezeichnet wird. Man könnte es als den «musikalischen Geist» oder das «musikalische Hirn» übersetzen. Leider gibt es im Deutschen kein so allgemeines Wort für«mind» und Übersetzungen wie «Geist», «Vermögen», «Sinn», «Seele» oder «Repräsentation im Kopf» wecken bereits Assoziationen an bestehende Theorien, die der allgemeine englische Ausdruck nicht impliziert. Lerdahl und Jackendoff gehen davon aus, dass das verarbeitende Hirn Eigenschaften wie Modularität, Spezialisierung, Automatisierung besitzt und die faktische Art der musikalischen Verarbeitung dem Bewusstsein nicht umfassend zugänglich ist. Die Autoren glauben auch, dass ihre Theorie einer Überprüfung mit den Mitteln der experimentellen Psychologie zugänglich ist (Aspekte davon sind mit ermutigenden Ergebnissen tatsächlich empirisch untersucht worden, unter anderem von der belgischen Musikpsychologin Irène Deliège, die eine wichtige Rolle spielt bei der Aufarbeitung der kognitiven Musikpsychologie in Europa)[11].

Nach einigen Kognitionstheorien löst das menschliche Hirn Probleme, indem es sie in mehrere Unterprobleme aufspaltet und diese parallel und bis zu einem gewissen Grad unabhängig voneinander bearbeitet. GTTM folgt diesem Ansatz und schmiedet die unterschiedlichsten «Verstehensstrategien» wie Harmonik, Stimmführung, Gestaltwahrnehmung und so weiter zu einem integrierten Modell der Musikinterpretation – mit dem Anspruch, damit auch etwas über die Beschaffenheit des menschlichen Geistes auszusagen.

Lerdahl und Jackendoffs Entwurf einer generativen Theorie der tonalen Musik basiert im Sinne der kognitiven Vielfalt auf einer Vierteilung:

Gruppenstruktur: Verfahren, nach denen musikalische Abläufe in Gruppen unterteilt werden.
Metrische Struktur: Analysen für die metrische Struktur, die der Musik zugrunde liegt.
Zeitspannenreduktion: Damit sind Verfahren gemeint, die feinere musikalische Strukturen «vergröbern» oder simplifizieren. Intuitiv entspricht das etwa dem, was man macht, wenn man von einem mit reichen Verzierungen versehenen, komplexen Lied bloss ein einfaches Grundgerüst wiedergibt. Ein Beispiel dazu sind die simplifizierten Versionen von populärer Musik, die zu Zeiten publiziert wurden, zu denen das Klavier noch ein weitverbreitetes Instrument der Hausmusik war oder die vereinfachten Versionen von Notenmaterial, die bereits erwähnt worden sind. Die Reduktion wird allerdings ähnlich wie bei Schenker so weit getrieben, bis nur noch ein Skelett von zwei, drei Tönen vorhanden ist.
Prolongationsreduktion: Darunter fallen Analysen des Spannungaufbaus und -abbaus in einer Melodie oder einer Komposition (Welche Töne sind welchen untergeordnet? Welche drängen auf andere hin? und so weiter).

Für alle vier Bereiche werden in GTTM zunächst einmal Regeln festgelegt, die bestimmen, welche Strukturen «wohlgeformt» sind, wie der Modelltheoretiker sagt. Sie bestimmen bloss, welche Gruppenstrukturen korrekt geformt sind und welche nicht, ohne etwas über die Art und Weise zu sagen, wie man zu den Strukturen gelangt.

«Anständige» Gruppenstrukturen etwa teilen Musikstücke vollständig in kleinere Teile auf, die sich zudem nicht überlagern dürfen. Eine wohlgeformte Gruppenstruktur sieht etwa so aus:

Eine wohlgeformte Gruppenstruktur;
grobere Gruppen respektieren die Grenzen der feineren, gröbere
Gruppen sind zudem vollständig in feinere unterteilt.

Die Regeln der Wohlgeformtheit für Gruppenstrukturen schliessen hingegen derartige Dinge aus:

Nicht wohlgeformte Gruppenstruktur. Bei j findet
sich eine unzulässige Überlappung, bei k fallen die Grenzen gröberer
Gruppenstrukturen nicht mit solchen der feineren zusammen.

GTTM besitzt eine innovative Eigenheit: Die Theorie geht über die Art von Regeln hinaus, die im Zusammenhang mit Grammatiken vorgestellt worden ist. Die weiter oben dargelegten der Webgrammatik wie auch ausnahmslos alle in klassischen logischen Systemen sind eindeutig. Die Eindeutigkeit ist gerade das, was ihre Stärke ausmacht. Sie erlaubt es, Konklusionen ohne den Schatten eines Zweifels zu ziehen oder Strukturen so exakt zu konstruieren, dass keine Unklarheiten übrigbleiben. Sie gehorchen Formen wie: «Wenn A und B vorliegt, so wähle B» oder «Gehe in dem Gitter zuerst nach links, dann nach rechts, dann wieder nach links». Derartige Formulierungen lassen keine Zweifel offen und bieten keinen Interpretationsspielraum.

Nicht so der zweite Typ Regel von GTTM. Diese Regeln sind eher eine Art mehr oder weniger gewichtige Hinweise oder Empfehlungen von der Art: «Falls A und B vorliegen und sonst nichts dagegen spricht, dann ziehe A vor» oder «Gehe in dem Gitter, wenn es sich einfach machen lässt, zuerst nach links und dann nach rechts.» Weil sie auf Ermessensgründen und teilweise bloss empfehlenden Argumenten beruhen, werden sie als Präferenzregeln bezeichnet. Eine Präferenzregel gibt keine eindeutigen Kriterien mehr zur Anwendung, sondern gibt bloss Empfehlungen darüber, welche Entscheidung je nach Situation vorzuziehen ist. In einfachen Fällen lassen sich aus Präferenzregeln auch eindeutige Hinweise für eine Entscheidung ablesen. Wenn aber mehrere Präferenzregeln zugleich angewendet werden können, dann ist es gut möglich, dass diese unter Umständen in einem Konflikt miteinander stehenden Kriterien keine Eindeutigkeit mehr zulassen.

Intuitiv sind Präferenzregeln in der Musiktheorie ein grosser Fortschritt, weil sie die Vieldeutigkeit musikalischer Strukturen viel angemessener abbilden können als die traditionellen starren Regelwerke.

Einige Beispiele zu Präferenzregeln für Gruppenstrukturen in GTTM:

Vermeide Analysen mit sehr kleinen Gruppen – je kleiner, umso weniger empfehlenswert.
Bevorzuge Gruppenanalysen, die es so weit wie möglich erlauben, eine Gruppe in zwei gleich lange Untergruppen zu unterteilen.
Falls zwei Musiksegmente einen parallelen Verlauf haben, so sollten sie in ihren jeweiligen Gruppen auch am gleichen Ort situiert werden.
Bevorzuge Gruppenstrukturen, die zu möglichst stabilen Zeitspannen- oder Prolongationsreduktionen führen.

Die Präferenzregeln beziehen ihre Kriterien unter anderem aus der Gestalttheorie, die in der kognitiven Psychologie eine wichtige Rolle spielt. Die Theorie geht zurück auf die Werke der Psychologen Ernst Mach und Alexius Meinong, die gegen Ende des 19. Jahrhunderts verfasst worden sind. Als Initialzündung für die Entstehung gilt aber der Aufsatz «Über ‚Gestaltqualitäten’»[12] des Wieners Christian von Ehrenfels. Von Ehrenfels bezieht sich ausdrücklich auf die Musik. Eine Melodie, meint er, ist mehr als «die Summe ihrer einzelnen Töne oder Intervalle». Eine Melodie besitzt eine gewisse Gestalt, die auch bei der Transponierung nicht zerstört wird. Gestalten hingegen sind «Vorstellungsbilder», und als solche das kreative Werk des Geistes.

Die Gestalttheorie spaltet sich später in zwei Richtungen: die Berliner Schule, geprägt von den Arbeiten Max Wertheimers, Wolfgang Köhlers und Kurt Koffkas, zu denen auch der Carl-Stumpf-Assistent Erich von Hornbostel zählt, und die Leipziger Schule um Wilhelm Wundt.

Max Wertheimer beschreibt 1912 das sogenannte Phi-Phänomen. Es handelt sich dabei um scheinbare Bewegung von in Wahrheit statischen Objekten. Wertheimer nutzt für die Demonstration das sogenannte Schumannsche Tachistoskop. Tachistoskope werden heute noch in der psychologischen Forschung verwendet. Sie projizieren für eine frei bestimmbare Zeit, die auch nur ein paar Millisekunden betragen kann, ein Bild.

Wertheimer projiziert zwei Streifen alternierend parallel und orthogonal:

Der abwechselnd horizontal und vertikal
präsentierte Streifen suggeriert Bewegung.

Dabei stellt er fest, dass das Umschalten als Bewegung wahrgenommen wird. Die Resultate überträgt er auf die Musik:

Zeigen sich so spezifische optische Phi-Phänomene, so sei erwähnt, dass es in manchem Bezuge analoge Problemgebiete auch auf andern Sinnesgebieten gibt. So zeigt – z. B. – bei prinzipieller Verschiedenheit im akustischen Bereiche (…) die «Tonbewegung» als charakteristisches, gerichtetes Erlebnis, nicht statischer Art, einiges Verwandtes.[13]

Man kann dies recht gut nachvollziehen, wenn man eine einfache Melodie betrachtet:

Beginn der «Ode an die Freude» aus Beethovens 9. Sinfonie

Faktisch handelt es sich dabei um einzelne statische Klangereignisse, die aber, als ob ein Film abgespult würde, eine Bewegung vorspiegeln:

«Ode» als Abfolge von Filmbildern

Ein einziger Akteur bewegt sich dabei scheinbar nach oben und unten, das heisst, die einzelnen, zeitlich unterschiedenen Töne werden identifiziert als verschiedene Zustände eines einzigen Objektes.

Gestalttheoretische Prinzipien bilden akustische Analogien zu den entsprechenden Befunden beim Sehen. So zerfallen, wie Köhler und Co. festgestellt haben, etwa die folgenden Punkte für uns in der Wahrnehmung automatisch in zwei Gruppen, weil zwei von ihnen einen grösseren Abstand haben:

°°° °°°°

Die Präferenzregeln von GTTM zur Gruppenbildung tragen solchen «natürlichen» Tendenzen der Gruppierung Rechnung.

GTTM bedient sich aber nicht nur der Resultate der Gestalttheoretiker. Das Buch wirft auch ein neues Licht auf die Ergebnisse Heinrich Schenkers. Die Autoren stellen fest, dass sie mit ihren Prolongationsanalysen tatsächlich sehr oft bei einer Reduktion landen, die dem Schenkerschen Ursatz entspricht, legen aber auch Beispiele vor, die – nach gesundem Menschenverstand – nicht einer Ursatz-Form entspringen. So passt sich etwa Chopins A-Dur-Präludium aus op. 28 dem Ursatz nicht an. Das Präludium reduziert sich auf eine Kette von V-I-Schritten, die sich nur mit viel Rhetorik (die dem rechthaberischen Schenker durchaus zuzutrauen gewesen wäre) in das I-V-I-Schema des Ursatzes pressen liessen.

GTTM ist die subtilste und konsequenteste Theorie, die bis heute in bezug auf musikalisch-linguistische Strukturen vorgelegt worden ist. Es besteht durchaus Hoffnung, dass auf ihrer Basis ein solides Computermodell zur automatischen Analyse musikalischer Werke formuliert werden kann (wobei man sich fragen kann, was der Sinn eines solchen sein sollte). Es gibt aber auch Einwände. Einen der gewichtigsten könnte man als eine moderne Variante der Galilei-Falle bezeichnen: Das subtile Spannungs/Entspannungs- und Gruppierungs-Gefüge fokussiert praktisch vollständig auf einen melodischen Verlauf und lässt sich nicht auf polyphone Gegebenheiten übertragen. Das räumen auch die Autoren ein: «In echt kontrapunktischer Musik gibt es einen wichtigen Sinn, in dem jede einzelne Linie ihre eigene, separate strukturelle Beschreibung haben sollte. Obwohl es prinzipiell möglich ist, die Theorie zu simultanen strukturellen Beschreibungen zu erweitern, wären die formalen Komplikationen so enorm, dass sie die Darlegung anderer, vielleicht grundlegenderer Aspekte der musikalischen Struktur verschleiern würden.»[14]

Eine polyphone Erweiterung von GTTM wird zwar versprochen, ist bis heute aber nur fragmentarisch gestreift worden, zum einen von Fred Lehrdahl in seinem späteren Buch «Tonal Pitch Space»[15], zum andern von dessen Schüler David Temperley in dem Buch «The Cognition of Basic Musical Structures»[16]. Fred Lehrdahl erklärt heute[17], seine Interessen hätten sich andern Bereichen zugewendet. Er gibt sich jedoch überzeugt, dass die Formulierung einer die Polyphonie umfassenden Theorie – auch wenn sie schwierig sei – keine prinzipiellen Probleme stelle. Man kann da seine Zweifel haben, denn die Wechselwirkungen der unterschiedlichsten Faktoren müssen dabei so subtil und komplex werden, dass man sie kaum mehr in den Griff bekommen dürfte. Ob der menschliche Geist bei seinem Verstehen von Musik tatsächlich derartige Komplexitäten berücksichtigt, müsste zudem zuerst einmal nachgewiesen werden.

Weitere Einwände resultieren aus der Heterogenität des Rahmenwerkes. Zwei wesentliche Probleme stellen sich dabei:

Problem Nummer eins: Wie Richard Cohn in einer Besprechung von GTTM in der Zeitschrift «Theory Only» 8 (1985) festellt, haben die GTTM-Regeln einen zirkulären Charakter. Man betrachte dazu die oben erwähnte Präferenzregel für Gruppenstrukturen und eine weitere für die Zeitspannenreduktion, die sich in GTTM ebenfalls findet. Sie lautet folgendermassen:

Bevorzuge eine Zeitspannenreduktion, die zu einer möglichst stabilen metrischen Struktur führt.

Das heisst aber, dass die Gruppenstruktur unter Berücksichtigung der Zeitspannenreduktion und die Zeitspannenreduktion wiederum unter Berücksichtigung der Gruppenstruktur ermittelt wird. Das riecht natürlich stark nach einem verhängnisvollen Zirkel.

Das zweite Problem ist im Wesen der Präferenz angelegt – als Schwierigkeit, zuverlässig angeben zu können, welche Regel nun das grössere Gewicht hat, wenn zwei Präferenzregeln widerstreiten. Wie lässt sich zum Beispiel harmonische Energie gegen Gestaltwahrnehmung gewichten? Die Entscheidung darüber ist in vielen Fällen eine intuitive, und genau das – intuitive Analysen – wollte GTTM ursprünglich aus der Welt schaffen[18].

Einen Versuch, sich dem Prozess des Hörens noch mehr zu nähern, hat Ray Jackendoff in einem späteren Artikel gemacht[19]. Er stellt sich darin die Frage, inwieweit die Theorie tatsächlich etwas darüber aussagt, was beim Musikhören und Musikverstehen im menschlichen Hirn vorgeht. Jackendoff will darin zeigen, dass Musik auf eine Art verstanden wird, die derjenigen der Sprache parallel ist: Die im Hirn eintreffende Musik wird von einem modularen «Prozessor» abgearbeitet und interpretiert («geparst» wie der Linguist sagt).

Eine Theorie der musikalischen Wahrnehmung – meint Jackendoff – sollte Folgendes umfassen:

Eine Beschreibung der abstrakten Strukturen, die dem Hörer zur Verfügung stehen.
Eine Beschreibung der Prinzipien, über die ein Hörer verfügt, um die abstrakten Strukturen Musik zuordnen zu können.
Eine Beschreibung der Art, wie ein Hörer die Prinzipien in Echtzeit verwendet, um aus der gehörten Musik abstrakte Strukturen abzuleiten.
Eine Beschreibung der Geistesstrukturen («facilities in the mind»), in denen solche Ableitungen durchgeführt werden.

Laut Jackendoff umfasst GTTM die Punkte 1 und 2 dieser Liste.

In dem Artikel stellt Jackendoff zum Punkt 3 folgende These auf:

Der Prozessor im Hirn erwägt bei der Echtzeitanalyse von Musik mehrere mögliche Analysen parallel, und zwar solange, bis sich eine davon als einzig mögliche herausstellt.

Die These macht mehrere Voraussetzungen. Zum ersten überträgt sie das Modell des linguistischen Parsers auf das Analysieren und Verstehen von Musik. Zwei Alternativen zu der parallelen Ermittlung von Analysen schliesst Jackendoff aus. Eine Alternative wäre, dass bloss eine (die plausibelste) Analyse durchgeführt wird, und zwar so lange, bis sie derart an Plausibilität verliert, dass sie zugunsten einer andern fallengelassen wird. Jackendoff meint, dass damit zu Beginn aber bereits mehrere Analysen vorliegen müssten, aus denen der Parser eine wählen könnte. Zudem würde der Parser im Falle des Scheiterns der Analyse wieder an den Beginn zurückgehen, um eine neue Analyse zu beginnen. Da dies in Echtzeit geschieht, würde das musikalische Geschehen aber weiterlaufen, und der Parser im Hirn müsste sowohl das bereits Analysierte noch einmal analysieren als auch zusätzlich das aktuelle musikalische Geschehen in Betracht ziehen. Dies müsste sehr schnell zu einer Überlastung des Parsers führen.

Eine zweite Alternative wäre, dass der Parser die Analyse so lange offenlässt, bis er zu einem Punkt gelangt, an dem das musikalische Geschehen eine eindeutige Interpretation zulässt. Jackendoff nennt dies das seriell-indeterministische Modell. Seine Einwände dagegen: Um im Moment der Eindeutigkeit die richtige Analyse zu applizieren, muss der Parser bereits alle Analysen zur Verfügung haben. Dies jedoch weist Jackendoff ins Reich der Wahrsagerei:

Es ist bloss ein frommer Wunsch anzunehmen, dass die korrekte Analyse irgendwie wunderbarerweise «auftaucht», wenn sich genug Beweise dafür angesammelt haben. Wenn wir die Prinzipien der korrekten Analyse in der Sprache der Informationsverarbeitung erklären wollen, so ist es notwendig, dass der Parser mehrere in Frage kommende Analysen formuliert, aus denen die korrekte gewählt werden kann. Ist dies nicht der Fall, dann behauptet man, dass der Geist dies im Grunde genommen auf magische Art tut – das heisst, wir verneinen eine rationale Erklärung.

Ein zweites Problem mit dieser Art von Parser ist, dass sie die falsche Art von Voraussagen über die Beschaffenheit musikalischer Erfahrung macht; sie suggeriert, dass wir (…) überhaupt keine metrische Struktur erfahren [solange diese nicht eindeutig ist], weil der Parser bis dann überhaupt keine wählt. Dies ist offensichtlich falsch: wir haben eindeutig eine metrische Intuition, lange bevor wir für diese endgültige Beweise haben.[20]

Die parallele Analyse der These, die Jackendoff favorisiert, stösst auf Schwierigkeiten, die er selber offenbar übersieht. Jackendoff geht nämlich davon aus, dass immer eine endliche, prinzipiell bekannte Menge von Analysen zur Auswahl steht. Er vergleicht dies auch mit der Analyse von mehrdeutigen Wörtern in Sätzen, etwa «Bank», was eine Sandbank im Fluss, eine Sitzgelegenheit oder ein Finanzinstitut sein kann. Der Hörer hat in diesem Fall, wie Experimente bewiesen haben, alle möglichen Bedeutungen präsent, bis sich eine davon als die richtige herausstellt.

Dummerweise gibt es in der Sprache aber auch Satzanfänge, die eine unbestimmte und undefinierte Menge an Analysen zulassen. Wir Deutschsprachige können dank der Satzklammer ein Lied davon singen:

Ich habe gestern, in Gedanken versunken, mein Brot …

Ja was denn nun? …zu früh gegessen? …eingepackt? …einem Kind geschenkt? …einem Pferd verfüttert? …auf den Mond geschossen?

Auch wenn wir nicht wissen, wie der Satz enden wird und wir gar nicht wissen können, aus welchen Analysen wir überhaupt wählen sollten, interpretieren wir die vorhandenen Teile bereits. Da die konstruktiven Regeln in der Musik bis zu einem gewissen Grad der Beliebigkeit unterliegen, haben wir es da mit einer ähnlichen Situation zu tun: Wir verfügen unter Umständen über keine eindeutige und bekannte Menge an Analysen. Derartige Überlegungen können dazu führen, dass man die Konzeption von GTTM als Modell der menschlichen Kognition grundsätzlich ablehnt. Die Verdienste der beiden Autoren bleiben hingegen unbestritten, wenn man sieht, auf welch subtile Art GTTM es erlaubt, musikalische Strukturen zu analysieren.

GTTM ist über alles gesehen die Vollendung der musikalisch-grammatischen Metapher der Musik und zugleich deren Auflösung. Die konsequente Anwendung grammatikalischer Rahmentheorien führt nämlich dazu, dass die Sprachmetapher als solche schliesslich transzendiert wird. Die Grammatikmetapher kommt bloss noch in Form von Jargon zum Zuge. Wenn Lerdahl und Jackendoff Musik und musikalische Strukturen informell beschreiben, so tun sie dies vornehmlich mit Begriffen, die eher aus der Physik und Raumlehre entlehnt sind: Melodien gehen aufwärts und abwärts, es existieren Gravitationszentren und Energien, und allerlei Kräfte sind im Spiel.

—————————————

[1] erschienen 1957 als Noam Chomsky, Syntactic Structures, bei Mouton in Den Haag

[2] Zellig Harris, Methods in Structural Linguistics, University of Chicago Press, Chicago 1951

[3] Noam Chomsky, Aspects of the Theory of Syntax, MIT Press, Cambridge, Mass. 1965

[4] Leonard Bernstein, The Unanswered Question, Six Talks at Harvard, Harvard University Press, Cambridge (Mass.) 1976. Die Zitate hier entstammen der Taschenbuchversion der dt. Übersetzung: Leonard Bernstein, Musik – die offene Frage, Vorlesungen an der Harvard-Universität, Wilhelm Goldmann Verlag, München 1981.

[5] a.a.O., Seiten 16f

[6] a.a.O., Seite 97

[7] Mit strategisch verwendeten Beispielen ist es so eine Sache: Jede philosophische und linguistische Schule hat ein solches, das unweigerlich zum Markenzeichen wird. Führt ein Philosoph «der gegenwärtige König von Frankreich» als Beispiel an, outet er sich unweigerlich als Russell-Schüler oder -Kritiker; jeder Wahrheitstheoretiker, der etwas auf sich hält, erörtert die triviale Behauptung «Schnee ist weiss», die in einem epochemachenden Artikel von Alfred Tarski zerpflückt wird; wird über Sinn und Bedeutung diskutiert, müssen – Gottlieb Frege sei Dank – Morgenstern, Abendstern und Venus den Kopf hinhalten, für die Linguisten sind Jill und Jack die besten Vertrauten, und Kryptographen sprechen von praktisch nichts anderem als von Alice und Bob (und ab und zu von Eve). Eine generative Theorie der Musik positioniert sich untrüglich, sobald Mozarts g-Moll-Sinfonie KV 550, ins Spiel gebracht wird – eben dank Bernsteins zweiter Norton Lecture in Harvard.

[8] a.a.O., Seiten 116/117)

[9] Fred Lerdahl und Ray Jackendoff, A Generative Theory of Tonal Music, MIT Press, Cambridge (Mass.) 1983, in der Folge als «GTTM» bezeichnet.

[10] GTTM, ix, Übersetzung Wolfgang Böhler

[11] Irène Deliège, «Grouping Conditions in Listening to Music: An Approach to Lerdahl and Jackendoff’s Grouping Preference Rules», Music Perception 4/1987, Seiten 325-360.

[12] Christian von Ehrenfels, «Über ‚Gestaltqualitäten’», Vierteljahresschriften für Wissenschaften und Philosophie 1890/3, Seiten 249-299.

[13] Max Wertheimer, «Experimentelle Studien über das Sehen von Bewegung», in: Zeitschrift für Psychologie 61 (1912), Seite 223

[14] GTTM, Seite 116

[15] Fred Lerdahl, Tonal Pitch Space, Oxford University Press, Oxford 2001

[16] David Temperley, The Cognition of Basic Musical Structures, MIT Press, Cambridge (Mass.) 2001

[17] Persönliche Mitteilung

[18] Lehrdahl stellt sich heute auf den Standpunkt, dass diese Gewichtungen eine natürliche Folge der kognitiven Rahmentheorie sind und keine prinzipielle Schwäche der Theorie darstellen.

[19] Ray Jackendoff, «Musical Parsing and Musical Affect», Music Perception 9 (1991), Seiten 199 – 230

[20] a.a.O., Seite 139