KI-Zeitschrift - Auszug als Leseprobe

Der Workshop ”Maschinelle Überset- zung für historische Sprachen” hat am. 13. Mai an der Universidad Politèchnica de Catalunya in Barcelona stattgefun- den.
33KB Größe 2 Downloads 335 Ansichten
Tagungsbericht

KI

4/09

Maschinelle Übersetzung für historische Sprachen Cristina Vertan Der Workshop ”Maschinelle Übersetzung für historische Sprachen” hat am 13. Mai an der Universidad Politechnica de Catalunya in Barcelona stattgefunden (http://www.c-phil.uni-hamburg.de/view/Main/MTHistWorkshop)

Der Workshop ”Maschinelle Übersetzung für historische Sprachen” hat am 13. Mai an der Universidad Politèchnica de Catalunya in Barcelona stattgefunden. Er war als begleitendes Ereignis zur europäischen Konferenz über Maschinelle Übersetzung (EAMT09) organisiert. Der Zusammenhang zwischen den beiden Ereignissen war nicht nur der Begriff ”Maschinelle Übersetzung”, sondern auch die Thematik der Hauptkonferenz, nämlich „Translation among European languages, especially forlanguages with smaller speech communities and limited digital resources“. Historische Sprachen sind ein typisches Beispiel hierfür, auch wenn es sich um hiatorische Varianten von heute weit verbreiteten und ressourcenreichen Sprachen (Englisch, Französisch, Deutsch, usw.) handelt. Die Motivation des Workshops war die zunehmende Verbreitung von digitalen Bibliotheken, die weltweit auch Dokumente in historischen Sprachen zur Verfügung stellen, und zwar nicht nur für einen begrenzten Wissenschaftlerkreis, sondern für ein breites Publikum. Computergestützte Tools, die das Verstehen solcher Dokumente ermöglichen, sind hier unbedingt nötig, aber zur Zeit nur minimal vorhanden oder in getrennt arbeitenden Forschergruppen in Arbeit. Dieser Workshop war ein erster Versuch, Forschergruppen aus Europa und USA zusammen zu bringen, die aktuellen Ergebnisse darzustellen und weitere gemeinsame Aktivitäten zu planen. Der eingeladene Vortrag von Prof. Walther v. Hahn (Universität Hamburg) hat exemplarisch anhand von mittel-

54

und frühneuhochdeutschen Dokumenten gezeigt, dass für solchen Sprachen eine Integration von Werkzeugen, die das Verstehen des Dokumentsermöglichen, sinnvoller ist als die Entwicklung eines automatischen maschinellen Übersetzungssystems. Ein entscheidender Aspekt hierbei sei die Angemessenheit der Sprache, in die man übersetzen würde. Eine Übersetzung in entsprechende moderne Sprachen riskiert den Verlust der meisten semantischen und pragmatischen Eigenschaften des Textes; eine treue Übersetzung in eine zeitgleiche Version anderer Sprachen wird hingegen ähnlich unverständlich bleiben wie das Original. Mike Priddy (King’s College London) vom hat anhand von Aktivitäten im DARIAH Netzwerk und ähnlichen Konsortien nachgewiesen, dass bei der Anzahl der bereits existierenden Digitisate das Problem der metasprachlichen Vernetzung von (historischen) Dokumenten sehr relevant ist, und es nur gelöst werden kann, wenn man die Dokumente auch inhaltlich versteht und beschreiben kann. Cristina Vertan (Universität Hamburg) gab einen Überblick über aktuell existierende Werkzeuge für alte Dokumente, meistens lexikalische Hilfen und sehr rudimentäre Taxonomien. Der Vortrag von Roland Meyer (Universität Regensburg) wies nach, dass man durchaus Werkzuge für moderne Sprachen (in seinem Falle Russisch) für bestimmte Operationen (PoS Tagging) in älteren Sprachstufen (hier Altrussisch) anwenden kann. Der Vortrag zeigte andererseits sehr gut, welche Phänomene in der alten Sprache auf diese Weise nicht (oder mit unbrauch-

barem Ergebnis) bearbeitet werden können. In seinem Vortrag schlug Cristoph Ringlstetter (Universität München) eine Methode vor, um fehlende lexikalische Ressourcen für historische Sprachen mit Hilfe statistischer Methoden zu generieren. Anschliessend brachte David Baumann (TUFTS University) ein sehr gutes Beispiel für die Integration von syntaktischen Ressourcen in elektronische Versionen von altgriechischen und lateinischen Dokumenten in der digitalen Bibliothek des Projekts Perseus. Der Workshop hat gezeigt, dass die Problematik des Verstehens historischer Dokumente aus anderen sprachlichen Umgebungen heraus sehr aktuell ist. Die meisten Aktivitäten konzentrieren sich bisher auf lexikalische Ressourcen, nur einige wenige auf syntaktische Ressourcen, eine Integration von beiden - mit Ausnahme der Perseus-Bibliothek - fehlt bisher. Bilinguale Ressourcen für alte Sprachstände sind sehr selten und decken unsystematisch unterschiedliche Zeitintervalle ab. Die Präsentationen werden durch das MT-Archiv (http://www.mt-archive.info/) verfügbar gemacht. Proceedings des Workshops werden im Verlag der Universität Hamburg herausgegeben. Kontakt Dr. Cristina Vertan Universität Hamburg Arbeitstelle „Computerphilologie“ Von-Melle Park 6 20146 Hamburg Tel.: +49 (0)42883-4767

Auszug aus: Künstliche Intelligenz, Heft 4/2009, ISSN 0933-1875, BöttcherIT Verlag, Bremen, www.kuenstliche-intelligenz.de/order