Herunterladen Inhalt Inhalt Diese Seite drucken

Zeichensatzerkennung - Fujitsu BS2000/OSD COBOL2000 V1.5 Benutzerhandbuch

Compiler
Inhaltsverzeichnis

Werbung

Zeichensatzerkennung

10.4 Zeichensatzerkennung
Für die korrekte Verarbeitung eines XML-Dokuments ist es entscheidend, den Zeichensatz
zu kennen, der zur Darstellung des Dokuments verwendet wird. XML erlaubt die Angabe
dieses Zeichensatzes in einer Zeichensatz-Deklaration innerhalb des Dokuments. Bei Da-
tenübertragungen zwischen verschiedenen Datenverarbeitungssystemen erfolgen i.A.
auch Konvertierungen der verwendeten Zeichensätze, jedoch keine inhaltlichen Änderun-
gen. Das kann dazu führen, dass die Angabe des Zeichensatzes im XML-Dokument nicht
mehr mit dem Zeichensatz übereinstimmt, der tatsächlich zur Darstellung verwendet wird.
Um die Zeichensatz-Deklaration im XML-Dokument erkennen zu können, muss bereits vor-
her für das Lesen des Dokuments eine Annahme über den verwendeten Zeichensatz ge-
troffen worden sein. Dies ist näherungsweise möglich, da ein wohlgeformtes XML-Doku-
ment immer mit der Zeichenfolge <?xml beginnen muss. Durch Vergleich des
Dokumentanfangs mit der Darstellung dieser charakteristischen Zeichenfolge in den ver-
schiedenen, vom Parser unterstützten Zeichensätzen, lässt sich ein aktuell für das XML-
Dokument verwendeter Zeichensatz ableiten.
Darüber hinaus erlaubt das BS2000/OSD für Dateien die Vergabe eines Dateiattributs, das
einen Zeichensatz benennt (CODED-CHARACTER-SET), erzwingt jedoch nicht, dass der
Dateiinhalt in diesem Zeichensatz dargestellt ist. Bei der Bereitstellung von XML-Dokumen-
ten im Arbeitsspeicher, die in COBOL zusätzlich möglich ist, lässt sich aus den Angaben im
Programm ebenfalls ein Zeichensatz ableiten, der für die Darstellung des Dokuments ver-
wendet wird, siehe Handbuch „COBOL 2000 Sprachbeschreibung" [1], Abschnitt „ASSIGN-
Klausel".
Es gibt folglich drei Quellen, aus denen sich derselbe, zur Darstellung des Dokuments ver-
wendete Zeichensatz ergeben sollte:
Z1
Z2
Z3
Um die Notwendigkeit manueller Eingriffe vor der Verarbeitung eines XML-Dokuments wei-
testgehend zu vermeiden, akzeptiert das COBOL-System in gewissem Umfang auch feh-
lende bzw. widersprüchliche Angaben zu Zeichensätzen aus diesen drei Quellen.
274
aus Untersuchung des Dokumentanfangs geschlossener, vermuteter Zeichensatz
externe Angabe des Zeichensatzes als Dateiattribut bzw. Angaben im Programm
Zeichensatz-Deklaration im XML-Dokument
XML-Dokumente verarbeiten
U41113-J-Z125-6

Quicklinks ausblenden:

Werbung

Inhaltsverzeichnis
loading

Inhaltsverzeichnis