Die Masse macht's

Übersetzungsverfahren

Linguistische Probleme

image.jpg

© PC Magazin

Der US-Mathematiker Warren Weaver (1894-1978) gilt als Begründer des maschinellen Übersetzens.

Heute weiß man, dass die ursprüngliche Vorgehensweise grundlegend falsch war. Denn natürliche Sprachen sind keine definierten, formalen Systeme wie die der Mathematik, sondern historisch gewachsene Gebilde. Und sie sind komplizierter, als man denkt. Sobald man versucht, ihre Regeln präzise zu fassen, um sie auf den Rechner zu bringen, stößt man auf Schwierigkeiten.

Da wären beispielsweise Mehrdeutigkeiten, in linguistic speech, Homonyme. "Bank" kann ein Geldinstitut oder eine Sitzgelegenheit sein, "Sch loss" ein Gebäude oder eine Schließvorrichtung, Solche Begriffe können erst im inhaltlichen Zusammenhang korrekt übersetzt werden. In dem Satz "wir treffen uns im Schloss" muss die Software das Namen "Schloss" mit "castle" übersetzen und keinesfalls mit "lock" (Türschloss). Woher aber soll der Computer wissen, was gemeint ist?

image.jpg

© PC Magazin

Bei der Transfer-Methode müssen für jedes Sprachpaar eigene Regeln aufgestellt werden. Der Aufwand nimmt mit der Zahl der Sprachpaare überproportional zu.

Neben solchen semantischen Mehrdeutigkeiten machen auch syntaktische, strukturelle Ambiguitäten Rechnern zu schaffen. Wenn eine Kundin fragt: "Kann ich das Kleid im Schaufenster anprobieren?", so ist es unwahrscheinlich, dass man meint, sie wolle das Schaufenster als Umkleidekabine benutzen. Für den Computer sind die beiden Bedeutungen (die Kundin ist im Schaufenster oder das Kleid ist im Schaufenster) gleich wahrscheinlich.

Die Auflösung von Pronomina ist ein weiteres Beispiel, mit dem Menschen gut, Maschinen aber schlecht zurechtkommen. In dem Text "Hans brauchte Marias Bleistift. Sie gab ihn ihm.", wissen wir, dass "ihn" sich auf "Bleistift" bezieht und "ihm" auf "Hans".

Bei der Übersetzung ins Englische "she gave it to him" muss der Rechner diese Beziehungen (das heißt zwischen "ihn" und "Bleistift") über die Satzgrenze hinweg herstellen. Dafür gibt es bis heute noch kein allgemeingültiges Verfahren. Solche und viele andere Probleme machen den Computerlinguisten zu schaffen.

Regelbasiertes Übersetzen

Im Laufe der Entwicklung der MÜ haben sich vor allem zwei maschinelle Übersetzungsverfahren etabliert: regelbasierte und statistische Ansätze. Der regelbasierte Ansatz ist die klassische, linguistisch ausgerichtete Methode der Maschinenübersetzung. Er ist in den meisten PC-Übersetzungsprogrammen realisiert.

Bei der ersten Variante, der Transfermethode, analysiert das Programm zunächst die grammatikalische Struktur des Quelltextes. Danach werden Wörter und grammatische Regeln in die Zielsprache übertragen und ein neuer Text erzeugt. Das alles geschieht in drei Schritten: Analyse, Transfer, Generierung.

Um das Problem mit den Mehrdeutigkeiten in den Griff zu bekommen, kann man Bedingungen formulieren, welche vorangehende oder nachfolgende Wörter erfüllen müssen.

image.jpg

© PC Magazin

Bei der Interlingua-Methode existiert eine (synthetische) Zwischensprache. Dies vermindert Aufwand, vermehrt durch die zweimalige Übersetzung jedoch die Fehlermöglichkeiten.

Das Wort "laufen" muss im Französischen mit "courir" übersetzt werden, wenn das Subjekt einen Menschen oder ein Tier bezeichnet (Hans läuft). Bezeichnet das Subjekt eine Flüssigkeit (das Wasser läuft), so muss "laufen" durch "couler" wiedergegeben werden. Solche Bedingungen lassen sich ebenfalls leicht in Regeln gießen.

Der Nachteil der Transfermethode ist: In allen Sprachen gibt es viele Feinheiten und Ausnahmen, so dass die Regeln immer komplexer werden und sich irgendwann Inkonsistenzen und Widersprüche einschleichen. Zudem braucht es für jedes Sprachpaar neue Experten, was sehr zeitraubend und teuer ist.

Statt für jedes Sprachpaar unter hohem Aufwand Regeln aufzustellen, erscheint es effizienter, eine universelle Zwischensprache einzuführen, in welche man die Quellsprache übersetzt und von der aus die Sätze der Zielsprache generiert werden. Diese Variante des regelbasierten Übersetzens nennt sich Interlingua. Die Zwischensprache bildet dabei Ziel und Quelle sämtlicher Übersetzungssysteme.

Mehr zum Thema

Word - Text um Bild
Office-Tipp

In Word 2010 und 2013 gibt es Bilderrahmen mit einer pfiffigen Funktion für das Freistellen von Bildinhalten. Wir zeigen, wie es geht.
Wir zeigen den normgerechten Aufbau bei Briefen mit Microsoft Word.
Anleitung

Ein DIN-gerechter Aufbau erleichtert dem Lesenden die Übersicht. Word bietet dafür mit seinen Vorlagen und Funktionen alle Voraussetzungen.
Excel Zellenformatvorlagen
Office-Tipp

In diesem schnellen Office-Tipp zeigen wir Ihnen, wie Sie in Excel mit Zellenformatvorlagen eine Menge Arbeit sparen.
Excel - Nettoarbeitstage
Office-Tipp

Wir erklären, wie Sie in Excel etwa für eine Arbeits- oder Urlaubsplanung die Wochenenden herausrechnen und die Nettoarbeitstage berechnen.
Kalender synchronisiert auf iPad
Zeit-Management

Kalender auf dem Smartphone, PC und im Web synchronisieren - mit unseren 9 Tipps schaffen Sie genau das. Verpassen Sie keinen Termin mehr!