XML-Datenformate: Data Markup Language (DatML) 1.0

Beschreibung

DatML (Data Markup Language) ist ein XML-basierter Dokumenttyp für statistische Daten; er unterstützt den gesamten statistischen Produktionsprozeß von der Erhebung der Daten über ihre Plausibilisierung bis zur Auswertung und Veröffentlichung. Den unterschiedlichen Anforderungen im Laufe des Produktionsprozesses entspricht die Unterteilung des Dokumenttyps in eine Reihe von Unterformaten, die untereinander eine konsistente Metadatenhaltung ermöglichen. Einige Komponenten, wie z.B. Datensatzbeschreibungen, werden in mehreren Unterformaten verwendet. Im Einzelnen: 

 

DatML/RAW

ist ein generischer, d.h. nicht für eine bestimmte Erhebung entwickelter Dokumenttyp für die Lieferung statistischer Rohdaten; das Format ist auf die Bedürfnisse der Berichtspflichtigen ausgerichtet, die statistische Daten in XML liefern wollen, und bildet eine abgeschlossene Komponente.
weiter...
 

DatML/RES

ist das zu DatML/RAW komplementäre Format für elektronische Quittungen, welche Informationen über den Empfang und die Prüfung einer Datenlieferung enthalten und dem Absender automatisch zur Verfügung gestellt werden.
weiter...
 

DatML/MAP

beschreibt die Abbildung von Daten zwischen verschiedenen Datenmodellen bzw. Containern, z.B zwischen HTML-Formularen und DatML/RAW, zwischen sequentiellen Dateien und DatML/SET, usw.
 

DatML/SSP

definiert Komponenten, die von zentraler oder grundlegender Bedeutung sind, nicht einem spezifischen Dokumenttyp zugeordnet sind oder mehrfach verwendet werden; Beispiel sind Adressen, Datums- und Zeitangaben, Datensatzbeschreibungen usw.
 

DatML/SDF

beschreibt Erhebungen und die zu liefernden Merkmale so, dass vollständige und valide Rohdatenlieferungen einmalig oder über längere Zeiträume automatisch erzeugt werden können. Verbraucher von DatML/SDF sind z.B. Anwendungen des betrieblichen Rechnungswesens.
weiter...
 

DatML/EDT

beschreibt die in Plausibilitätsprüfungen verwendeten Merkmale, Prüfungen und Abläufe. Auf DatML/EDT setzen z.B. Generatoren auf, die ablauffähigen Prüfkode in verschiedenen Programmiersprachen erzeugen.
 

DatML/SET

ist der Dokumenttyp für die Beschreibung statistischer Datenbestände ab der Rohdatenübernahme, d.h. ab der Phase der Plausibilisierung, während der Auswertung und bis anwendungs- und plattformneutralen Archivierung.
 

DatML/ASK

für die Beschreibung von Fragebögen.
 

zum Seitenanfang



DatML/RAW

 

Downloads

Verwendung


DatML/RAW (Data Markup Language - Raw Data) ist ein XML-Dokumenttyp für die Lieferung statistischer Roh- und Metadaten per Datei. Seine Struktur ist auf größtmögliche Flexibilität ausgelegt. Sie erlaubt die Lieferung von Daten mehrerer beliebiger Erhebungen für unterschiedliche Berichtszeiträume von verschiedenen Berichtspflichtigen in einem Dokument, wobei Daten für verschiedene Empfänger bestimmt sein können. DatML/RAW ist sowohl aus Absender- wie aus Empfängersicht mandantenfähig. Desweiteren unterstützt DatML/RAW eine Reihe von Zusatzfunktionen wie Testunterstützung, Adreßänderung und Empfangsbestätigung. DatML/RAW steht in einer deutschen und einer englischen Version zur Verfügung, die sich lediglich durch die unterschiedliche Benennung der Elemente, Attribute und der vordefinierten Attributwerte unterscheiden.

Nachrichten


Ein DatML/RAW-Dokument enthält eine oder mehrere sogenannte Nachrichten. Eine Nachricht kann in beliebig viele Teilnachrichten, sogenannte Segmente (<segment>), zerlegt werden. Jedes Segment hat einen eigenen Satz von Metadaten. Es ist außerdem möglich, Segmente zu schachteln und damit Metadaten (und die ihnen nachgeordneten Daten) innerhalb einer Nachricht hierarchisch anzuordnen. So kann ein Absender, der Daten für mehrere Berichtspflichtige übermittelt, die Daten eines jeden zusammenhängend als Nachricht ablegen; ein anderer Absender, der nur eigene Daten übermittelt, kann Nachrichten für die Trennung von Berichtszeiträumen verwenden (z.B. eine Nachlieferung, die mit den aktuellen Daten geliefert wird). Die Aufteilung in eine oder mehrere Nachrichten und deren Segmentierung ist für die Verwendung und Verarbeitung der Daten unerheblich, da alle Metadaten auf Satzebene zusammengeführt werden, bietet aber ein Mittel zur Strukturierung des Dokumentes und zur Redundanzvermeidung.

zum Seitenanfang


Absender und Empfänger


Jedes DatML/RAW-Dokument muß genau einen Absender und einen Empfänger angeben. Der Absender versendet das Dokument; er kann selbst Berichtspflichtiger sein und/oder für Dritte berichten; in jedem Fall muß er berechtigt sein, am Meldeverfahren teilzunehmen. Für Änderungen der Adreß- und Kontaktinformationen des Absenders bzw. des Berichtspflichtigen steht der Knoten <korrektur> zur Verfügung.

Berichtspflichtige und Berichtempfänger


Es können Daten beliebig vieler Berichtspflichtiger an beliebig viele Berichtsempfänger (die erhebenden Stellen) in einem Dokument übermittelt werden. Die notwendigen Informationen werden wie die übrigen Metadaten angeordnet (s. SpezifikationPer Default sind der Berichtspflichtige mit dem Absender und der Berichtsempfänger mit dem Empfänger des Dokumentes identisch. Für Änderungen der Adreß- und Kontaktinformationen eines Berichtspflichtigen steht der Knoten <korrektur> zur Verfügung.

zum Seitenanfang


Adreßangaben


Einige der in Adreßangaben erlaubten Bestandteile werden in Deutschland üblicherweise nicht benutzt, z.B. <kreis>; diese Angaben dienen vor allem dazu, die Elemente "verlustfrei" auf eine englische (bzw. internationale) Version und umgekehrt zu mappen. Grundsätzlich sollten Adressen immer so vollständig wie möglich angegeben werden. Für Korrekturen wird ein identisches Inhaltsmodell verwendet. In beiden Fällen können Muß-Angaben (Straße, PLZ, Ort) als leere Elemente abgelegt werden, wenn keine Daten für sie vorhanden sind, aber ein valides Dokument erzeugt werden soll.

Metadaten


Metadaten (Berichtspflichtiger, Berichtsempfänger, Erhebung, Berichtszeitraum, Materialbezeichnung) werden sämtlich als Kindknoten des Elementes <segment> abgelegt. Da <segment> ein rekursives Element ist, erlaubt es die Anorderung der Metadaten wahlweise als flache Sequenz oder in beliebiger hierarchischer Anordnung.

zum Seitenanfang


Datensätze und Daten


Nutzdaten werden als Datensatz in Form einer Folge von Merkmalen (<mm>) abgelegt und durch Attribute beschrieben. Ein Datensatz ist - wie die Metadaten, s. Spezifikation - dem Element <segment> nachgeordnet, jedoch wird durch ihn die Rekursion des Elementes beendet. Die Datensätze "hängen" - bildlich gesprochen - an den übergeordneten Metadaten.

DatML/RAW verlangt nicht, daß die Merkmale in einer bestimmten Reihenfolge abgelegt werden, sondern lediglich die Angabe einer Merkmalsbezeichnung, mit deren Hilfe ein Merkmal und der mit ihm verbundene Wert einem Feld in einem Datensatz eindeutig zugeordnet werden kann. Zur noch offenen Frage der Gruppierung und Wiederholung von Merkmalen s. Spezifikation.

Eine weitere Möglichkeit ist die Verwendung von Ordnungsmerkmalen. Ordnungsmerkmale repräsentieren zum Datensatz gehörende Felder, anhand denen Sätze in auf- oder absteigender Folge angeordnet werden. DatML/RAW stellt für die Abbildung von Ordnungsmerkmalen das Element <omm> zu Verfügung, dem entweder weitere Ordnungsmerkmale oder Datensätze nachgeordnet sind. Die Werte eines Ordnungsmerkmales werden in diese Folge eingestreut. Technisch gesehen werden Ordnungsmerkmale dadurch aus den Datensätzen herausgelöst, verbunden mit dem Vorteil einer Redundanzverringerung. Bei der Abbildung einer DatML-Struktur auf eine flache Datensatzstruktur werden die aktuellen Werte in den jeweiligen Datensatz übernommen.

Die Verwendung von Ordnungsmerkmalen ist daher vor allem ein Mittel der Redundanzvermeidung und der Abbildung von Ordnungshierarchien. Ein Folge von Datensätzen wird jeweils genau einem Wert eines Ordnungsmerkmales (und ggf. denen übergeordneter Ordnungsmerkmal) zugeordnet. Ein sortierte Ablage der Datensätze wird nicht erzwungen.

Innerhalb eines Segments müssen Ordnungsmerkmale stets gleich tief geschachtelt sein (d.h. alle Pfade vom höchten bis zum niedrigsten Ordnungsmerkmal sind gleich lang) und Ordnungsmerkmale der gleichen Hierarchiestufe immer den gleichen Namen haben, also dasselbe Ordnungskriterium beschreiben.

zum Seitenanfang


Sortierung


DatML erfordert keinerlei Sortierung und betrachtet weder Datensätze noch Merkmale als sortiert. Ordnungsmerkmale bewirken lediglich die Zuordnung von nachgeordneten Datensätzen bzw. Ordnungsmerkmalen zu genau einer Wertausprägung auf der aktuellen Hierarchiestufe, die Folge der Wertausprägungen eines Ordnungsmerkmals muß hingegen nicht sortiert sein (s. Spezifikation). Zur offenen Frage der Abbildung von zusammenhängenden Sätzen verschiedener Satzarten (Cluster bzw. hierarchische Datensätze) s. Spezifikation.

zum Seitenanfang
 

DatML/RES

 

Downloads

Verwendung


DatML/RES (Data Markup Language - Response) ist ein zu DatML/RAW komplementäres Format für elektronische Quittungen, welche Informationen über den Empfang und die Prüfung einer Datenlieferung enthalten und dem Absender automatisch zur Verfügung gestellt werden. Durch die Verwendung von DatML/RES sind die Quittungen maschinell verarbeitbar und deren Auswertung leichter in automatische Datenlieferungsprozesse beim Absender integrierbar.

zum Seitenanfang


DatML/SDF

 

Downloads

Verwendung


DatML/SDF (Data Markup Language - Survey Definition Format) unterstützt mit seiner umfassenden formalen Beschreibung der Eigenschaften und Merkmale einer Erhebung die Automatisierung der Datengewinnungsprozesse in der Unternehmens-DV und die Erzeugung der Lieferdokumente. Der Einsatz effizienter generischer Methoden erleichtert dabei die Aktualisierung der Verfahren und gewährleistet eine hohe Datenqualität.

zum Seitenanfang