1/2020
UNIZEIT
4/15

Alexa drückt die Schulbank

Schwarm-Roboter kopieren das Verhalten von Tieren; Alexa, Siri oder der Google Translator sind darauf programmiert, die menschliche Sprache nachzuahmen. Dahinter steckt einiges an linguistischer Forschung, wie sie unter anderem Boban Arsenijevic betreibt, Slawist an der Universität Graz.
„Mittlerweile sind die Computer so stark, dass sich die Tools nach statistischen Prinzipien selbst verbessern“, beschreibt Arsenijevic. Jeder Satz, den jemand spricht oder eingibt, wird maschinell analysiert. Passt er nicht in das zugrundeliegende Modell, wird dieses entsprechend abgeändert. „So lernt die Software ständig dazu“, schildert der Linguist. Allerdings verlässt sich diese Methode darauf, dass die am häufigsten verwendeten Ausdrücke für den jeweiligen Kontext die richtigen sind, was etwa zu den manchmal eigentümlichen Blüten des Google Translator führt.
Andere Programme erhalten zunächst theoretischen Input der SprachwissenschafterInnen, etwa über Endungen oder Wortarten. Dann versuchen sie selbst, dieses „Wissen“ auf neue Wörter anzuwenden. Parallel werden sie mit Übungen und den Lösungen dazu gefüttert – wie Volksschulkinder, die die Grundzüge der Grammatik begreifen sollen. Die Software stolpert dabei auch über ähnliche Hürden wie die Taferlklassler – etwa die korrekte Einordnung und Schreibung von hauptwörtlich gebrauchten Adjektiven.
Wortbedeutungen erfassen die Maschinen auf rein mathematischem Weg als mehrdimensionale Vektoren. Diese bilden die Wahrscheinlichkeit ab, mit der ein Begriff in unmittelbarer Nähe eines anderen vorkommt. „So erkennen die Programme Synonyme, Gegensätze, oder verwandte Wörter“, erklärt Arsenijevic. Bei bis zu 200 000 Begriffen, die die Software gespeichert hat, wird dieser Prozess allerdings sehr aufwändig. Die LinguistInnen vereinfachen daher die Vernetzungen und entfernen überflüssige Dimensionen, damit Alexa nicht zu lange nachdenken muss, bevor sie eine Antwort gibt.
„Diese Kombination aus angeleitetem und selbstständigem Lernen hat sich für Spracherkennungs- und Übersetzungsprogramme als optimal erwiesen“, stellt der Slawist fest. Sie beherrschen ihre Sprache zu rund 95 Prozent, mehr ist aus heutiger Sicht nicht möglich. „Eine Maschine, die wirklich wie ein echter Mensch spricht, würde außerdem aufgrund der enormen Rechenleistung unglaublich viel Energie benötigen“, wirft Arsenijevic ein. Nachsatz: „In einigen Jahren kann sich das natürlich ändern.“