XML-Technologien

XML-Technologien

Posts 1-5 of 5
  • Patrick Gillham
    Patrick Gillham
    The company name is only visible to registered members.
    Von Word to XML
    Hallo!

    Unser derzeitige Ansatz ist ein Weggang von einem Word-basierten DMS zu einem XML-basierten Hybrix CMS. TRADOS soll weiterhin die Übersetzungsarbeit unterstützen. Der Investionsaufwand (zusätzlich zu den Anschaffungskosten für Hybrix) besteht aus der Erstellung eines Redakteurs- und-Terminologieleitfadens (bestehend aus fest definierten Handlungssequenzen etc.,) auf Grundlage dessen das XML-Schema umgesetzt werden soll. Da unser Bestand an deutschen sowie fremdsprachlichen Betriebsanleitungen nahezu zu 100 % in der Word-Umgebung erstellt wurden, und ein schneller "Turnaround" weiterhin unvermeidlich sein wird, scheint mir die Idee, quasi jede BA von Grund auf neu zu schreiben / strukturieren ein wenig utopisch, zumal unsere Personalresourcen voll ausgelastet sind. Hat einer von Ihnen ein solches ehrgeiziges Projekt in Angriff genommen? In meiner Funktion als Translation Manager, sehe ich zudem weitere Probleme auf uns zukommen. Technisch ist zwar TRADOS durchaus in der Lage auch etwas "overtagged" DTDs/INIs einigermaßen übersetzerfreundlich zu bewältigen; jedoch werden wir beträchtliche Einbußen hinsichtlich der 100 % Matches hinnehemen müssen als Folge der anfänglichen stark verminderten TM-Produktivität. Anregungen in dieser Hinsicht wären mir sehr willkommen.

    Mit freundlichen Grüßen

    Patrick Gillham
  • Post visible to registered members
  • Stefan Gentz
    Stefan Gentz    Premium Member   Group moderator
    The company name is only visible to registered members.
    Re: Von Word to XML
    Hallo Herr Gillham,

    grundsätzlich ist der Schritt von Word zu einem XML-basierten CMS sicherlich zu begrüßen.

    Dazu ein paar Gedanken. Zunächst zum Vorhaben Word nach XML:

    Soweit mir bekannt ist, kommt HyBrix mit einem „Word2XML“-Konverter. Damit lassen sich Word-Dateien nach XML konvertieren (es muss dazu kein DOCX sein). Zumindest in der Theorie. Denn: Ob die Ergebnisse brauchbar sind oder nicht, hängt letztlich davon ab, wie „komplex“ ihre Word-Dokumente sind. Das Geheimnis liegt hier in den – Herr Kohl hat es ja schon angedeutet – Templates und deren konsequenter Anwendung. Je konsequenter in der Vergangenheit bereits mit Absatz- und Zeichenformat-Vorlagen in Word gearbeitet wurden, je durchgängiger alle Grafiken immer ordentlich referenziert (und nicht etwa eingebettet) wurden und je weniger Abweichungen, i.E. manuelle „Einzefall-Basteleien“, erzeugt wurden, desto schmerzfreier und kostengünstiger wird der Transformations-Prozess werden.
    Letztlich erzeugen aber fast alle Autoren, die in Word schreiben, selbst in strengen Dokumentationsvorgaben und trotz perfekter Templates fast immer irgendwelche Abweichungen und lokale "Sonderlösungen". Und: Selbst wenn schon sehr „sauber“ in Word gearbeitet wurde, und z.B. alle Absätze auf definierten Absatzformaten basieren von denen nicht abgewichen wurde, wird dies in der Regel noch nicht den heutigen Anforderungen an XML-basierte Informationsarchitekturen entsprechen. Ein Beispiel: In Word wurde vermutlich (wenn überhaupt) ein eigenes Listenformat mit Nummerierungen und eines mit Aufzählungszeichen erstellt. Die Benennung war dann vielleicht "Aufzählung (nummeriert)" und "Aufzählung (nummeriert)". In einem XML-Szenario sind aber eher rollenbasierte statt formatierungsbasierte Benennungen üblich. Also etwas inder Art "Handlungsanweisung" - "Handlungsschritt" oder "Produkteigenschaft" - "Eigenschaftstyp" - "Eigenschaftstypwert". Die eigentliche Herausforderung wird also weniger technischer als architektonischer Natur sein.

    In jedem Fall rate ich dringend dazu, das Transformationsergebnis für jede einzelne Datei manuell zu prüfen und ggf. in einem guten XML-Editor auch entsprechend zu strukturieren. Ohne die Details Ihrer Dokumentationslandschaft zu kennen, möchte ich aber auch noch kurz anregen, über das Thema "Modularisierung" der Doku nachzudenken. Wenn Sie langfristig wirklich optimalen Vorteil ziehen wollen, macht es Sinn, "Informationsbausteine", "Topics", "Module" oder wie auch immer zu bilden. Damit diese in möglichst vielen Dokumenationen sinnvoll recycelt werden können, sollten diese natürlich möglichst "autark" sein.

    Kurzum, die Vorstellung, einen größeren Dokumentationsbestand mehr oder weniger auf Knopfdruck von Word nach XML zu bekommen ist daher mit Sicherheit utopisch. Sie werden also, wenn Sie es ordentlich machen wollen, mit Sicherheit eine Menge Arbeit damit haben (zum Glück gibt es ja auch Dienstleister, die gerne mit Rat und Tat unterstützen…).


    jedoch werden wir beträchtliche Einbußen hinsichtlich der 100 % Matches
    hinnehmen müssen als Folge der anfänglichen stark verminderten TM-Produktivität.

    Das muss nicht unbedingt sein. Wenn Sie den Text haben
    "Bitte lesen Sie diese Sicherheitshinweise sorgfältig."
    steht im TM auch nur genau dieser Text mit der jeweiligen Übersetzung, egal, ob das in Word nun über ein Absatzformat als ein "normaler" Absatz, ein Listenpunkt oder vielleicht als Warnung formatiert war oder ob es im XML hinterher ein Element "[warning level=3]" ist. I.e., auch nach Ihrem Umstieg nach XML wird es noch genauso ein 100%-Match sein, wie vorher in Ihrer Word-Datei
    Kritisch wird es daher nur, wenn auf Satzebene lokale Formatierungen vorkommen (also z.B. ein einzelnes Wort Fett gedruckt ist) oder programmspezifische Funktionen genutzt wurden (z.B. Index-Marken). Diese werden von den TMS-Systemen in inline-Elemente umgewandelt und sind folglich und logischerweise auch mit im TM. Wird also eine lokale Fett-Formatierung eines einzelnen Wortes dann in XML umgewandelt (z.B. in ein Element [betonung rolle="sehr wichtig"], dann sind das andere Tags. Sie können dafür aber in Trados die Tag-Penalty dann etwas abmildern (aber bitte unbedingt mit dem LSP abstimmen, damit es hinterher keine Abrechnungsprobleme auf Grund unterschiedlicher Analyseergebnisse gibt!), so dass es dann trotz der unterschiedlichen Tags immer noch als 98% oder gar als 100% Match erkannt wird.

    Je nach Umfang des TMs, kann es dann auch sinnvoll sein, die TMs zumindest für ein paar häufig vorkommende Tags direkt zu überarbeiten und auf das neue XML-Tagging anzupassen. Das kostet vielleicht ein, zwei Tag Arbeit, kann dann aber enorm Geld sparen. Wenn Sie dazu Fragen haben, können Sie sich dazu auch gerne an mich wenden.

    Mit freundlichen Grüßen,
    Stefan Gentz,
    TRACOM OHG
  • Manuel Montero Pineda
    Manuel Montero Pineda    Premium Member   Group moderator
    The company name is only visible to registered members.
    Re^2: Von Word to XML
    Hallo,

    wir machen solche Projekte öfters und die Wege sind bei weitem nicht immer gleich. Kurz gesagt hängt alles an der Datenqualität und damit ist die korrekte Verwendung von Formatvorlagen gemeint. Ob diese "richtig" verwendet wurden kann erst nach der Analyse eines repräsentativen Querschnitts gesagt werden.
    Wenn die Daten "gut" sind kann über WordML transformiert werden. In jedem Fall gibt es einen Programmieraufwand und die Programmierung muss immer wieder nachgezogen werden, wenn Dateien doch anders aufgebaut sind. In diesem Fall können 99% Automatisierung erreicht werden.
    Wenn die Daten nicht so gut sind oder manche Teile davon dann wird meist in Rumänien oder China gescannt und getaggt.


    Übrigens haben wir in der TK was dazu geschrieben:

    http://www.tekom.de/index_neu.jsp?url=/servlet/ControllerGUI...

    Wie es genau funktioniert kann hier in unserem Buch zu Word und XML nachgelesen werden:

    http://www.data2type.de/publikationen/word-und-xml


    Viele Grüße,

    Manuel Montero
  • Patrick Gillham
    Patrick Gillham
    The company name is only visible to registered members.
    Re^2: Von Word to XML
    Hallo Herr Gentz,

    vielen Dank für Ihre interessante Bemerkungen. Ihre Idee, die TMs gezielt zu überarbeiten, um häufig vorkommende XML-Tags zu erfassen , wie in meinem Fall "Positionskennziffer", wobei die Nummern in Sätzen wie "Schraube 3 in Gewindehülse 4 einschrauben" jeweils in Tags eingebettet sind, oder Referenzen, die in den kleinen Textbausteinen ebenfalls mit Tags versehen sind. Ich bin im Moment krank, aber sobald ich wieder Zugang zu meiner produktiven Ebene habe, werde ich mich an Sie wenden.

    MfG

    Patrick Gillham