Wie der Computer übersetzt

Download (PDF, 100Kb)

Die maschinelle Übersetzung ist ein Spezialgebiet der Computeranwendung, auf dem fast jeder glaubt, dass er/sie ein Fachmann ist.

Erstens: Es ist für jeden nachvollziehbar, dass je umfangreicher ein Wörterbuch ist, desto besser wird auch die Übersetzung sein. Demzufolge ist es ein vorrangiges Problem, für die Systeme Wörterbücher mit einem großen Umfang zu erstellen.

Zweitens: Fest steht, dass das System in der Lage sein muss, Sätze wie „Hallo, wie geht es dir?“ zu übersetzen. Ein anderes Problem ist demnach, dem System beizubringen, die allgemeine Kollokation zu erkennen.

Drittens: Es ist eindeutig klar, dass ein Satz, der übersetzt werden soll, nach bestimmten Regeln geschrieben wird und dementsprechend nach bestimmten Regeln übersetzt werden sollte. Das Problem, das es hierbei zu lösen gilt, ist: alle diese Regeln in einem Programm zu speichern. Das war’s!

Ein wichtiger Punkt hierbei ist, dass diese Probleme von großer Wichtigkeit bei der Entwicklung von Systemen für die maschinelle Übersetzung sind, jedoch sind die Methoden für deren Lösung allgemein unbekannt und nicht so einfach, wie es zu scheinen mag.

Die Systeme für die maschinelle Übersetzung der PROMT family sind perfekte Beispiele, um effektive Lösungen dieser Probleme aufzuzeigen.

Methoden, um umfangreiche Datenbanken anzulegen, sind sehr gut entwickelt, aber genauso wie für das Übersetzen und um ein einwandfreies Wiederauffinden von Datenbankelementen zu gewährleisten, ist es viel wichtiger zu wissen, wie die Informationen zu konfigurieren sind, die jedem einzelnen Element zugewiesen sind.

Zum Beispiel: Wie viele Wörterbucheinträge sollen dem allgemeinen russischen Wort „Programm“ entsprechen? Und was ist wichtiger, ein umfangreiches Wörterbuch, das viele Einträge enthält, oder ein Wörterbuch, das das Wiedererkennen von vielen Wörtern in einem Text möglich macht?

Eine genauere Betrachtung zeigt zum Beispiel, dass russische Substantive ihren Kasus und ihren Numerus ändern; es können nämlich 12 verschiedene Formen für ein Substantiv existieren, und als Regel gilt, dass es auch eine größere Anzahl von Formen (mehr als 30) für Verben und Adjektive geben kann. Folglich: Um Sätze zu übersetzen, die russische Wörter enthalten, die gebeugt werden können, wie „Programm“, „zum Programm“, „Programme“ etc., wäre es nützlich, eine Technik für das Suchen einer Korellation zwischen dem Wörterbucheintrag „Programm“ und der passenden Wortform im Text zu implementieren. Demnach: Um sowohl die Eingabe- als auch die Ausgabesprache zu beschreiben, sollte das System eine formale Methode der morphologischen Beschreibung verwenden, die die Grundlage für das Wiederauffinden der Wörterbucheinheit bildet.

Gegenwärtig ist in jedem System, das den Anspruch hat, ein Übersetzungssystem zu sein, das Problem der Darstellung von morphologischen Modellen auf irgendeiner Weise gelöst. Aber einige Systeme können 1 Million Wortformen in einem Wörterbuch mit 50.000 Einträgen erkennen, während andere Systeme mit einem Wörterbuch mit 100.000 Einträgen nur diese 100.000 erkennen können.

In den PROMT-family-Systemen ist die morphologische Beschreibung für alle Sprachen so entwickelt worden, dass sie von den Systemen verarbeitet werden kann. Diese Beschreibung ist aufgrund ihrer Vollständigkeit nahezu einzigartig. Sie enthält 800 Flexionsarten für die russische Sprache, mehr als 300 für Deutsch und Französisch, und selbst für die flexionsarme englische Sprache sind über 250 Flexionsformen definiert.

Die Vielzahl der Endungen in jeder Sprache ist in einer Baumstruktur gespeichert; auf diese Weise ist nicht nur ein effektives Speichern, sondern auch die Anwendung des Algorithmus bei der morphologischen Analyse gewährleistet.

Darüber hinaus wurde dieses morphologische Modell für die Entwicklung des Beratungssystems für die Anwender, die Wörterbücher selbst erstellen, angewandt. Dieses System automatisiert in der Tat während der Eingabe von neuen Wörterbucheinträgen den Prozess der Wortstamm-Extraktion und der Determination des Wortarttyps.

Dieses Feature fehlt in anderen verfügbaren Systemen für die maschinelle Übersetzung, ja sogar in so bekannten Systemen wie Power Translator (Globallink, USA), Language Assistant (MicroTac, USA), TRANSEND (Intergraph, USA), in denen die Anwender die Deklination und Konjugation der Wörter von Hand vornehmen müssen, um ein morphologisches Modell zu definieren.

Dennoch: Die Entwicklung der morphologischen Beschreibung löst nur ein Problem, nämlich das der Determination der Kopfzeile des Wörterbucheintrags, die benutzt wird, um eine Texteinheit und eine Wörterbucheinheit zu identifizieren. Aber die Determination der Korellation zwischen einem Wort in einem Text und dem Wörterbucheintrag wird nicht nur für den Zweck der Identifikation durchgeführt, weil dies in Rechtschreibprüfprogrammen oder in elektronischen Wörterbüchern erforderlich ist, sondern auch für die Durchführung der Übersetzungsprozesse mittels der Software. Demnach: Welche Information sollte ein Wörterbucheintrag enthalten und welche Übersetzungsregeln sollten beschrieben werden, damit die Software übersetzen kann?

Wörterbuch

An dieser Stelle ist ein geschichtlicher Exkurs erforderlich, weil die maschinelle Übersetzung als Teil der angewandten Linguistik eine sehr bewegte Historie hat. Die Idee der maschinellen Übersetzung kam in den 50er Jahren parallel mit der Entwicklung der ersten Computer auf. Übrigens: Der Begriff „maschinelle Übersetzung“ stammt aus jener Zeit. Diese Aufgabe schien sehr einfach zu bewältigen. Eine linguistische Euphorie kam auf, und viele globale Projekte für die Entwicklung von Übersetzungssystemen für verschiedene Sprachen wurden gestartet.

Keiner dieser Projekte war bei der Entwicklung eines funktionierenden Systems erfolgreich, und die Kommission, die insbesondere von der US National Academy of Sciences 1967 gegründet wurde, entschied, dass die Projekte für die maschinelle Übersetzung keine Zukunft hätten und nicht länger finanziert werden sollten. Nur Anfang der 80er Jahre hatten sich Linguisten soweit von den Konsequenzen dieser Entscheidung erholt, um die Forschung und Entwicklung auf diesem Gebiet wieder aufzunehmen. Sicher, in vieler Hinsicht stand diese Wiederbelebung auch in Zusammenhang mit der allumfassenden Entwicklung der Computerindustrie und insbesondere mit dem wachsenden Interesse an der „künstlichen Intelligenz“ als ein Gebiet der Computeranwendung.

Dennoch: In den 80er Jahren wiederholte sich die Geschichte, aber zusätzlich zu den globalen Projekten wie EUROTRA (European Economic Community), ARIANE (Frankreich), METAL (USA und Deutschland), KANT (USA), SUSY (Deutschland) wurden viele lokale Projekte mit weniger ehrgeizigen Zielen gestartet.

Die globalen Projekte waren weiterhin auf die Lösung des Übersetzungsproblems im Allgemeinen ausgerichtet. Innerhalb dieser Projekte wurden die Entwicklung einer Beschreibung der lexikalen Einheiten für die Wörterbücher und die Entwicklung von Übersetzungsalgorithmen als verschiedene Aufgaben betrachtet. Eine Vielzahl von linguistischen Lösungsansätzen bot eine Strukturbeschreibung von lebendigen Worteigenschaften in einem (Computer)Wörterbucheintrag an. Zur gleichen Zeit wurde eine Anzahl von unabhängigen Forschungsergebnissen veröffentlicht, die Fragen wie „ The Structure of Noun Phrase“ oder „ Representation of Direct Objects of Verbs of Saying“ zum Gegenstand hatten. Wie auch immer: Echte kommerzielle Systeme, die in irgendeiner Weise die Resultate dieser Studien implementiert hatten, wurden auf dem Markt nicht vorgestellt. Jedes entwickelte System hatte eine bescheidene Ergänzung: „experimentell“ oder „Prototy“.

Aber in der Praxis wurde keines dieser Systeme zu Ende entwickelt und können als Verbraucherprodukte betrachtet werden. Dies war dadurch bedingt, dass die angewandten Methoden für die Beschreibung der Übersetzung nach ihrer Übertragung in eine reale Umgebung (z. B. ihrer Anwendung auf willkürliche Texte) ihre Unvereinbarkeit mit Methoden zeigten, die für die Erstellung von Wörterbucheinträge angeboten wurden.

Eine Ausnahme ist vielleicht das METAL Projekt. Obwohl dieses Projekt letztendlich zu keinem echten kommerziellen Produkt geführt hat, fand während seiner Entwicklung ein Richtungswechsel hin zur Schaffung eines Systems statt, das in der Lage sein sollte, aus dem Deutschen ins Englische und aus dem Englischen ins Deutsche zu übersetzen und Fachwörterbücher für spezielle Fachbereiche zu verarbeiten.

Zur gleichen Zeit waren lokale Projekte auf Lösungen für begrenzte Bereiche ausgerichtet. Die Aufgabenstellung der Entwickler war es, irgendein verwertbares Resultat zu erzielen. Bei diesen Projekten wurden die Wörterbuchbeschreibung und die Beschreibung der Algorithmen als ergänzende Teile eines Problems betrachtet, aber die Lösung (als Regel) wurde durch die Eingrenzung der analysierten Umgebung - entweder der Grammatik oder Semantik gefunden. Zum Beispiel: Aufgrund des Attributs der Zugehörigkeit zu einer Wortart wurde die Grammatik folgender Typen/Arten beschrieben:

Eine nominale Wortverbindung ist ein Substantiv.
Eine nominale Wortverbindung ist ein Adjektiv + eine nominale Wortverbindung.
Eine verbale Wortverbindung ist ein Verb + eine nominale Wortverbindung.
Ein Satz ist eine nominale Wortverbindung + eine verbale Wortverbindung.

Es leuchtet ein, dass ein Teil von Sätzen in einer natürlichen Sprache unter Verwendung dieser Grammatik beschrieben werden kann, aber ihre Anzahl ist gering und unzureichend für eine korrekte Analyse und Übersetzung eines realen Textes. Aber es ist möglich, effektive Methoden bei der Konstruktion eines Konverters auf der Basis einer spezifischen Grammatik zu verwenden oder bestenfalls ein Programm zu kompilieren, das Abhängigkeitsstrukturen für eine eingeschränkte Anzahl von Sätzen mit Hilfe der linearen Suche bilden kann. Auch diese Art von Systemen wurde als „experimentell“ bezeichnet.

Obwohl keiner der zwei Lösungsansätze zur Entwicklung eines kommerziellen Systems geführt hat, haben Forschungsarbeiten auf diesem Gebiet dazu beigetragen, die Komplexität dieser Aufgabe zu verstehen und letztendlich Engpässe auch in ähnlichen Entwicklungen zu entdecken. Wie dem auch sei: Diese lokalen Projekte haben die Plattform geschaffen, die die Entwicklung von Übersetzungssystemen ermöglicht haben, die heute den End-Usern angeboten werden. Power Translator (Globallink Company), Language Assistent (MicroTac Company) und Transend (intergraph Company ) gehören zu diesen Systemen.

Die Systeme von STYLUS und PROMT family sind keine Ausnahme, wie viele andere haben auch Spezialisten der PROMT Company an ähnlichen Entwicklungsprojekten mitgewirkt. Dennoch: Ein bahnbrechender revolutionärer Lösungsansatz wurde für die Entwicklung der PROMT-Systeme angewandt und führte zu eindrucksvollen Resultaten. Die Übersetzungssysteme der PROMT family sind Systeme, die auf der Basis von nicht linguistischen, sondern kybernetischen Methoden konstruiert wurden.

Es hatte sich nämlich herausgestellt, dass es sehr effektiv war, das Übersetzungssystem nicht als Übersetzer zu betrachten, dem die Übersetzung eines aus grammatikalischer Sicht zulässigen Textes zugewiesen wurde, sondern eher als ein komplexes System, das die Aufgabe hatte, Resultate zu erzielen, auch wenn die beliebige Dateneingabe einschließlich der Texte, die aus Sicht der gerade genutzten Systemgrammatik nicht korrekt sind. Statt einen linguistischen Lösungsansatz zu akzeptieren, der die Implementierung sequentieller Prozesse der Satzanalyse und Synthese voraussetzt, basiert die Architektur des Systems auf der Darstellung der Übersetzungsprozesse in Form eines „objektorientierten“ Prozesses, der wiederum auf einer Hierarchie von zu verarbeitenden Satzkomponenten basiert. Dies verleiht den PROMT-Systemen die Eigenschaft stabil und offen zu sein.

Darüber hinaus machte dieser Lösungsansatz die Anwendung einer unterschiedlichen formalen Beschreibungsart der Übersetzung auf unterschiedlichen Levels möglich. Die Systeme verwenden auch Netzwerk-Grammatiken, deren Typ den der „ extended transition networks“ ähnlich ist, sowie funktionierende Algorithmen für die Füllung und Umwandlung von Datenstrukturen für die Analyse komplexer Satzaussagen .

Die Beschreibung lexikalischer Einheiten innerhalb eines Wörterbucheintrags, der eigentlich in seinem Umfang nicht limitiert ist und eine Anzahl von verschiedenen Attributen enthalten kann, ist eng verbunden mit der Struktur der Systemalgorithmen und ist nicht auf der Basis einer überholten Antithese der syntaktischen Bedeutungen, sondern eher auf der Basis von Textkomponenten-Levels konfiguriert.

Dadurch kann das System mit unvollständig beschriebenen Wörterbucheinträgen arbeiten, was eine sehr wichtiger Punkt für das Öffnen von Wörterbüchern für die Anwender ist, die nicht als erfahrene Spezialisten in der Linguistik betrachtet werden können.

Das allererste System für die maschinelle Übersetzung, das von der PROMT Company 1991 freigegeben wurde, war in der Lage, Fachtexte aus dem Englischen ins Russische aus dem Bereich der Computersoftware zu übersetzen. Das System verwendete ein kleines Wörterbuch (ca. 17.000 Wörter und Wortverbindungen), war kompatibel mit dem DOS-Betriebssystem und hatte keine Anpassungstools. Aber bereits dieses erste System war einwandfrei aufgebaut, und die gegenwärtige Technologie für die Entwicklung von Algorithmen für die maschinelle Übersetzung, die von der PROMT Company angewandt wurde, bedurfte keiner wesentlichen Veränderung. Darüber hinaus stellte sich der Lösungsansatz, der während der Entwicklungsphase gefunden wurde, als sehr effizient für viele unterschiedliche Sprachen heraus.

Zunächst bedarf es der Erklärung einiger Definitionen: Parallel zur Entwicklung der maschinellen Übersetzung, die Teil der angewandten Linguistik ist, wurden Klassifikationen der Systeme vorgenommen. Eine Unterteilung in TRANSFER-Systeme und INTERLINGUA-Systeme fand Akzeptanz. Diese Unterteilung basiert auf dem Gesichtspunkt der Architektur-Lösungen hinsichtlich der linguistischen Algorithmen.

Übersetzungsalgorithmen für TRANSFER-Systeme sind als eine Kombination von drei Prozessen aufgebaut: Analyse des Eingabesatzes in Begriffen der Strukturen der Quellsprache, Umwandlung dieser Strukturen in ähnliche Strukturen der Zielsprache (TRANSFER) und schließlich Synthese des Ausgabesatzes in Übereinstimmung mit der konstruierten Struktur.

INTERLINGUA-Systeme setzen a priori voraus, dass eine bestimmte Metasprachen-Struktur (INTERLINGUA) zur Verfügung steht, die im Prinzip verwendet werden kann, um jede Struktur der Eingabe- und Ausgabesprache zu beschreiben. Daher wird angenommen, dass der Übersetzungsalgorithmus, der in INTERLINGUA-Systemen angewandt wird, viel einfacher ist: Analyse des Eingabesatzes in Begriffen der Metasprache und dann Synthese eines korrespondierenden Satzes in der Zielsprache unter Verwendung der Metastruktur. In diesem Fall ist die „eine einzige“ Schwierigkeit die Entwicklung der Metasprache selbst und die Beschreibung der natürlichen Sprache mit Hilfe von passenden Begriffen.

Trotz der Tatsache, dass es diese Klassifikation gegenwärtig gibt und unter den Entwicklern von Systemen für die maschinelle Übersetzung es zum guten Ton gehört zu fragen, zu welchem System Ihr System gehört, gibt es immer noch kein echtes System, das auf dem INTERLINGUA-Prinzip entwickelt wurde.

Auch unser System macht hier keine Ausnahme, und wir beantworten diese Frage wie folgt: Unser System arbeitet nach dem TRANSER-Prinzip. Aber diese Antwort ist sehr einfach, und eigentlich widerspiegelt sie keine Eigenheit der PROMT-Systemarchitektur. Das besondere Feature ist, dass diese (TRANSFER-)Methode nicht aufgrund von linguistischen Standardlösungsansätzen angewandt wird.

Tatsächlich arbeitet ein Übersetzungssystem im Allgemeinen mit unvollständigen Daten, weil die Sprache ein lebendiges, sich schnell entwickelndes System ist: Neue Wörter, neue Funktionen alter Wörter (und zusammen mit neuen Essenzen), neue Bedeutungen werden dauernd entwickelt. Unter dieser Voraussetzung ist das wichtigste strukturelle Feature des Übersetzungsalgorithmus die Stabilität des Systems hinsichtlich der allgemeinen Eingabedaten. Die Übersetzungsalgorithmen des PROMT-Systems basieren nicht auf aufeinander folgende TRANSFER-Prozesse, sondern auf einem hierarchischen Lösungsansatz, der die Unterteilung des Übersetzungsprozesses in miteinander verbundenen TRANSFER-Prozesse für verschiedene Analyseeinheiten.

Folgende Levels werden im System unterschieden: Level der lexikalischen Einheit, Gruppen-Level, Level des einfachen Satzes und Level des zusammengesetzten Satzes. Alle diese Prozesse sind miteinander verbunden und beeinflussen sich hierarchisch gegenseitig entsprechend der Hierarchie der Worteinheit und tauschen synthetisierte und geerbte Attribute untereinander aus. Diese Anordnung der Algorithmen ermöglicht die Verwendung verschiedener formaler Methoden für die Beschreibung der Algorithmen auf unterschiedlichen Levels.

Lassen Sie uns einen Blick auf die lexikalische Einheit werfen: Eine lexikalische Einheit ist ein Wort oder eine Kollokation, die eine Einheit auf dem untersten Level darstellt. Jedes Wort wird als eine Komposition aus Stamm und einer Endung beschrieben - sowohl in der Eingabe- als auch in der Ausgabesprache. Einerseits ist die Möglichkeit der Erkennung und der Analyse der Morphologie des Eingabewortes gegeben, andererseits die Möglichkeit der Synthese des passenden Ausgabewortes entsprechend der relevanten morphologischen Daten (Stamm, Flexion, Adresse der Endung in der Reihe der Endungen dieses Typs). Demnach: Wenn Regeln der Umwandlung der morphologischen Eingabedaten in morphologische Ausgabedaten zur Verfügung stehen, ist es möglich, TRANSFER-Prozesse auf morphologischer Ebene ausführen zu lassen.

Das Gruppen-Level korrespondiert komplexeren Strukturen: Gruppen von Substantiven, Adjektiven, Adverbien und komplexen verbalen Formen. Dieser Level basiert auf formalen Network-Grammatiken, und bei der Analyse besteht die Möglichkeit, Gruppen zusammenzufassen, um syntaktische Einheiten zu erzeugen. Jede Einheit wird durch die synthetisierte Datenstruktur und durch die Haupteinheit der Gruppe definiert. Entsprechend der Eingabestruktur, gebildet aus Begriffen der unmittelbaren Bestandteile, und mit synthetisierten Attributen wird die Ausgabegruppe als ein Satz lexikalischer Einheiten mit morphologischen Attributwerten erzeugt, der entsprechend den Ergebnisse der Analyse der Gruppe geerbt werden kann. Auf diese Weise werden die TRANSFER-Prozesse auf Gruppen-Level implementiert.

Die Analyse einfacher Sätze, die als Strukturen angesehen werden können, die aus syntaktischen Einheiten bestehen, wird auf der Basis von Datenstrukturen der Satzaussage, die ein effektives Umwandeln bereitstellen, ausgeführt. In einfachen Sätzen wird das Verb als wichtigstes Element betrachtet, und seine Valenz bestimmt die Ergänzung der entsprechenden Datenstruktur. Für jede Art von Datenstrukturen gibt es eine Konvertierungsregel für die Bildung von Ziel-Datenstrukturen und die Gestaltung von Aktanten (vom Verb abhängige Satzglieder). Auf diese Weise werden die TRANSFER-Prozesse auf Satz-Level implementiert. Die Analyse von zusammengesetzten Sätzen ist erforderlich, wenn es nötig ist, übereinstimmende Tempi zu bilden und die korrekte Übersetzung der Konjunktionen zu liefern.

Schlusswort

Wir hoffen, dass diese Informationen es potentiellen Anwendern von Übersetzungssystemen möglich machen werden zu verstehen, dass die Entwicklung eines Systems für die maschinelle Übersetzung keine einfache, eher eine wissensintensive Aufgabe ist. Und deswegen wird die Zahl der wirklich sofort betriebsbereiten Übersetzungssysteme, die in naher Zukunft erscheinen dürften, im Wesentlichen begrenzt sein.

Dr. Svetlana Sokolova,
Präsident der Fa. PROMT

add to del.icio Digg this search at technorati