Die richtige Strategie für Seiten und Content: TYPO3-Inhalte professionell übersetzen
Wenn eine Website in der Bedeutung über Landesgrenzen hinaus wächst, müssen ihre Inhalte übersetzt werden, damit sie im fremden Sprachraum überhaupt angenommen werden kann. Die schlichtere Variante zu diesem Zweck ist das Anlegen neuer Seiten und Seiteninhalte in einer alternativen Sprache oder das Kopieren der ausgangssprachlichen Inhaltselemente mit anschließender Übersetzung. Die eigentliche Übersetzung erfolgt dabei in den Formularen zum Editieren der Inhaltselemente. Der kopierte Inhalt wird wahlweise überschrieben oder die Übersetzung in ein leeres Formularfeld eingetragen. Diese Vorgehensweise ist allerdings nur bei kleineren Websites praktikabel, bei der Lokalisierung größerer Websites wird der Prozess schnell mühsam und zeitaufwändig. Außerdem hat der Übersetzer keine Möglichkeit, moderne Übersetzungstools wie Translation Memories oder Terminologiedatenbanken zu nutzen.
Moderne Übersetzungstools wie SDL Trados, across, STAR Transit oder DéjàVu sind integrierte Übersetzungssysteme, die über einen Übersetzungsspeicher (Translation Memory/TM), eine Terminologiedatenbank (TDB) und einen Übersetzungseditor verfügen. Der Editor ist in der Lage, zahlreiche Dateiformate zu bearbeiten (u. a. doc, xls, txt, html, xml, js, asp). Vom Editor aus hat der Übersetzer direkten Zugriff auf TMs und TDBs sowie auf zusätzliche Funktionen wie Rechtschreib- und Grammatiküberprüfung, Tag-Schutz und Tag-Überprüfung. Darüber hinaus existieren weitere Qualitätssicherungsverfahren. Um allerdings von den Vorteilen moderner Übersetzungstechnologie profitieren zu
können, ist eine Schnittstelle zwischen TYPO3 und den Übersetzungstools
notwendig.
Export & Import zu übersetzender Inhalte
Für die Übersetzung von TYPO3-Inhalten mit Übersetzungstools müssen diese in einem vom Tool unterstützten Dateiformat exportiert und nach erfolgter Übersetzung wieder re-importiert werden. Dafür bieten sich Formate wie SQL, CSV oder XML an. Doch nicht alle sind gleichermaßen geeignet, wie hier noch gezeigt werden wird. Zunächst gilt es, einige Probleme zu berücksichtigen, die über das reine Exportieren in ein Austauschformat hinausgehen. Neben den rein technischen, TYPO3-internen Gegebenheiten beziehen sie sich vor allem auf den jeweiligen lokalen Workflow.
Eine technische Grundvoraussetzung für eine erfolgreiche Lokalisierung ist, dass sowohl der Datenbankserver als auch das Austauschformat die zur Unterstützung aller Schriftzeichen notwendige Kodierung unterstützen (meist UTF-8). Technisch muss ferner gewährleistet sein, dass beim Export die betroffenen Datensätze beziehungsweise Datenfelder aus den jeweiligen Datenbanktabellen (pages, tt_content, etc.) ausgewählt werden. Außerdem müssen beim Re-Import der übersetzten Seiten und Inhaltselemente automatisch neue lokalisierte Datensätze angelegt werden sowie die Referenz auf das ausgangssprachliche Seiten- beziehungsweise Inhaltselement gesetzt werden. Der Export muss ebenfalls in der Lage sein, bei Veränderungen in den ausgangssprachlichen Seiten nur die geänderten Seiten und Seiteninhalte oder die geänderten Datenfelder zu exportieren.
Entsprechend dem Übersetzungsworkflow müssen ebenfalls Aspekte wie das Sperren von nicht zu übersetzenden Seiten (in Ausgangs- und Zielsprache) sowie das Ausblenden neu übersetzter Inhalte für eventuelles Korrekturlesen und Testen der Übersetzung in TYPO3 bedacht werden. Schließlich sollte auch noch verhindert werden, dass existierende Übersetzungen nicht versehentlich überschrieben werden. Hierzu bedarf es eines geeigneten Schutzmechanismus.
Das geeignete Austauschformat
Das Dateiformat muss folgende Anforderungen erfüllen: |
|
SQL-Dateien werden von Übersetzungstools als Textdateien behandelt. Die Auszeichnung der zu übersetzenden Inhalte ist unzureichend und die Übersetzungstools bieten keine Möglichkeit, nachträglich Auszeichnungen (z. B. für Filtereinstellungen) vorzunehmen. Eventuell enthaltene Tags werden ebenfalls als Text behandelt und können bei der Übersetzung nicht geschützt werden. Die Verwendung von SQL-Dateien als Austauschformat, wie in der Extension „Typo3 Localization Tool“ (gt_typo3_localization) vorgeschlagen, kann nur dann funktionieren, wenn die übersetzten Inhalte in eine neue Datenbank, beziehungsweise TYPO3-Installation übernommen werden sollen. Andernfalls werden die Inhalte in der Ausgangssprache überschrieben.
INSERT INTO tt_content VALUES ('9011','2204','1178193357',' ','1024','text','Course Preparation Issues',' ','<ul><li>LSP translation courses must be planned for at least two (if not four) semesters. Courses should be held regularly - e.g. two hours weekly or four-hour seminars every two weeks. This would depend on the time devoted to them in the host programme - Bachelors (BA), Masters (MA), etc. </li><...>
Listing 1
Die Unterstützung von CSV-Dateien wird zwar von den Übersetzungstools angeboten, sie ist jedoch ohne vorherige Umwandlung in das Format einer Tabellenkalkulation unzureichend. Selbst nach der Umwandlung ist die Übersetzung der Tabellenkalkulationsformate problematisch, da die Abgrenzung der übersetzbaren Inhalte nur durch Spalten gegeben ist. Nicht übersetzbare Spalten können jedoch nicht effizient geschützt werden. Ein Schutz von Tags innerhalb der Tabellenfelder ist ebenfalls nicht möglich.
"8829";"741";"1172049374";"0";"160";"text";"Modules overview";;"<p align=\"justify\">The following table offers you an overview of all <i>eCoLoTrain</i> course modules. For more information on the <LINK 850>modules</LINK> or the courses within them, please click on or on the title of a module. To start a course, just click on the course title.</p>";;"0";"8";;"0";"0";;"0";"0";"0";;;"0";"0";"0";;"0";"0";"0";;;;"0";"0";"0";"0";"0";;"0";"0";"0";"0";"0";;"0";"0";"0";"0";;"1";"0";"0";"0";"0";"0";;"0";"0";"0";"0";"0";"1";"0";;"0";"0";;"2896";<...>
Listing 2
Von den oben genannten Formaten ist einzig XML in der Lage, allen Anforderungen an ein Lokalisierungsformat zu genügen. XML verfügt standardmäßig über Informationen zur Kodierung sowie über das „xml:lang“-Attribut zur Auszeichnung von Dokumenten und Elementen, das von den Übersetzungstools ausgewertet werden kann. Die Abgrenzung von zu übersetzenden Inhalten kann über die Dokumentstruktur und die Verwendung von Attributen (z. B. translate=„yes“) erfolgen. Auch Längenbeschränkungen lassen sich mithilfe von Attributen realisieren. Diese können jedoch bisher nicht von allen Übersetzungstools ausgewertet werden. Die XML-Unterstützung in Übersetzungstools ist die flexibelste Möglichkeit von allen, da die auf dem Markt verfügbaren Tools in der Lage sind, für alle Arten von XML-Dateien Einstellungsdateien anzulegen. Mit XML ist ebenfalls die Bearbeitung von in den Text eingebetteten Tags möglich.
<?xml version="1.0" encoding="UTF-8"?> <!--Localization data from TYPO3 installation at UdS - Dept 4.6, exported 07/02/2007 (dd/mm/yyyy)--><!--Localization source language: EN; target language: DE; start page ID:1040--> <t3_tt_content slang="1" tlang="0"> <region xml:lang="EN"> <dataSet id="2638"> [...] <header type="blob" max-len="255" localizable="1" cdata="1">Welcome to the ICT Skills II (Text Editing)</header> <bodytext type="blob" max-len="16777215" localizable="1" cdata="1"> <p align="justify">This course aims to test and enhance your knowledge in the field of Information and Communication Technologies (ICT) specifically on <i>Text Editing</i>. It targets professional translators as well as translation and CAT teachers who want to test their ICT skills on text editing or learn more about text editing before starting to use CAT tools!</p> </bodytext> <...>
Listing 3
Verfügbare TYPO3-Extensions
Bis heute sind im TER nur zwei Extensions verfügbar, die eine Export-/Importmöglichkeit von TYPO3-Inhalten in XML zur Übersetzung bieten. Es sind die Extensions „Localization Manager“ (l10nmgr) von Kaspar Skåhøj [1] und der „TYPO3 LocManager“ (t3_locmanager), der von der Abteilung Sprachdatenverarbeitung der Universität des Saarlandes entwickelt wurde.
Der „Localization Manager“ exportiert zu übersetzende Inhalte in das MS Excel XML-Format, das mit MS Excel oder OpenOffice Calc bearbeitet werden kann. In zwei Spalten werden Ausgangs- und Zielsprache nebeneinander gestellt. Die Spalte der Zielsprache ist zunächst leer und wird vom Übersetzer gefüllt. Liegen bereits vereinzelt Übersetzungen vor, werden sie beim Export in die Spalte der Zielsprache geschrieben, was doppelte Arbeit verhindert, aber Bearbeitungen zulässt.
Die Einstellungen für den Export werden in einem Profil, der „L10N Manager Configuration“, gespeichert. Darin kann der Benutzer den Startpunkt für den Export im Seitenbaum festlegen sowie die Anzahl der zu exportierenden Ebenen. Ferner wird ausgewählt, aus welchen Tabellen die zu exportierenden Informationen kommen sollen. Hier sind standardmäßig die Tabellen „pages“ und „tt_content“ voreingestellt. Zusätzlich können Tabellen der installierten Extensions in den Export einbezogen werden. Des Weiteren lassen sich bestimmte Datensätze angeben, die in den Export integriert oder vom Export ausgeschlossen werden. Ferner stehen verschiedene Arten der Darstellung zur Auswahl. Schließlich bietet das Modul eine Lokalisierungsübersicht in tabellarischer Form inklusive Auswahl der Zielsprache. Hieraus kann direkt in den Editiermodus gewechselt werden, sodass sich Übersetzungen auch direkt in TYPO3 vornehmen lassen. Für alle Funktionen steht die Option zur Verfügung, nur neue oder geänderte Inhalte anzuzeigen und zu exportieren.
Die direkte Bearbeitung des MS Excel XML-Formats mit dem Übersetzungstool ist zunächst nicht möglich, da zuvor die Spalte mit der Ausgangssprache in die Spalte mit der Zielsprache kopiert werden muss. Übersetzungstools sind bisher nämlich nicht in der Lage, die Übersetzung in eine definierte Zielspalte zu speichern. Im Text enthaltene Tags können wie bereits oben erwähnt nur als Text behandelt werden und sind somit nicht geschützt. Da in der XML-Datei die zu übersetzenden Inhalte nicht explizit voneinander abgegrenzt sind, ist es in jedem Fall zunächst notwendig, eine Einstellungsdatei anzulegen.
Der „TYPO3 LocManager“ exportiert die Seiteninhalte und Inhaltselemente aus den Datenbanktabellen „pages“, „pages_language_overlay“ und „tt_content“ in zwei XML-Dateien: eine für Seiteninformationen und eine für Inhaltselemente. Dabei kann der Benutzer die zu lokalisierenden Felder der Datenbank selbst auswählen und konfigurieren. Im Gegensatz zum „Localization Manager“ werden Tags nicht mit htmlspecialchars umgewandelt, sondern in das XML-Format übernommen, sodass die Tags beim Übersetzen geschützt sind. Der Benutzer hat die Option, beim Export die Einstellungsdateien für zwei weit verbreitete Übersetzungstools (SDL Trados TagEditor und PASSOLO) generieren zu lassen. Sie können zusammen mit einer Readme-Datei, die den Übersetzungsprozess beschreibt, als ZIP-Datei heruntergeladen werden. Eine zusätzliche Option beim Export ist die Überprüfung auf bereits übersetzte Seiten und Inhaltselemente.
Nach dem Export können die XML-Dateien zum Beispiel direkt mit dem SDL
Trados TagEditor oder mit Passolo übersetzt werden. Nicht übersetzbare
Inhalte bleiben dabei geschützt und können vom Übersetzer nicht
verändert werden. Die Bearbeitung mit anderen Übersetzungstools stellt
ebenfalls kein Problem dar, da alle für die Übersetzung notwendigen
Angaben im XML-Format enthalten sind. So kann für alle Tools eine
entsprechende Einstellungsdatei mit entsprechenden Angaben erzeugt
werden.
Beim Re-Import hat der Benutzer die Möglichkeit, die importierten Seiten und Inhaltselemente auszublenden, um zum Beispiel die Übersetzungen zuerst Korrektur lesen oder die Webseiten testen zu können. Ferner wird vor dem Import überprüft, ob bereits Übersetzungen existieren. Der Benutzer hat die Wahl, ob die Seiten und Inhaltselemente überschrieben werden oder nicht.
Im Gegensatz zum „Localization Manager“ erlaubt der „TYPO3 LocManager“ den Export einer Ausgangssprache, die nicht der Standardsprache entspricht. So sind auch Relaisübersetzungen möglich. Problematisch ist dabei jedoch, dass beim Import als Referenz für das Original die Nicht-Standardsprache angegeben wird. Außerdem ist anzumerken, dass der „TYPO3 LocManager“ bisher nicht in der Lage ist, eingebettete Inhaltselemente von Seiten außerhalb des exportierten Seitenteilbaums zu exportieren. Auch bei Seiten mit flexiblen Inhaltselementen (FCE) werden nicht alle zu übersetzenden Inhalte exportiert.
Fazit
Bislang gibt es keine zufriedenstellende Lösung für den Export und Re-Import von zu übersetzenden TYPO3-Inhalten, doch die beschriebenen Ansätze haben ihre jeweiligen Stärken: der „Localization Manager“ bei der Auswahl der zu übersetzenden Inhalte und der „TYPO3 LocManager“ beim Lokalisierungsformat und der Schnittstelle zu den Übersetzungstools in Form von mitgelieferten Einstellungsdateien. Positiv beim „Localization Manager“ ist ebenfalls, dass die exportierten Inhaltselemente den zugehörigen Seiten untergeordnet sind, was dem Übersetzer mehr Kontextinformationen liefert. Derzeit ist eine Zusammenführung beider Entwicklungen mit zusätzlichen Funktionen in Arbeit [2]. Auch die Anpassung an unternehmensspezifische Workflows ist möglich.