DatML - Allgemeines

Stand:09.03.2004
 
Data Markup Language (DatML) 1.0  

Beschreibung

DatML (Data Markup Language) ist ein XML-basierter Dokumenttyp für statistische Daten; er unterstützt den gesamten statistischen Produktionsprozeß von der Erhebung der Daten über ihre Plausibilisierung bis zur eigentlichen Verarbeitung und schließlich Archivierung. Den unterschiedlichen Anforderungen im Laufe des Produktionsprozesses entspricht die Unterteilung des Dokumenttyps in eine Reihe von Unterformaten, die untereinander eine konsistente Metadatenhaltung ermöglichen. Einige Komponenten, wie z.B. Datensatzbeschreibungen, werden in mehreren Unterformaten verwendet. Im Einzelnen: 

 

  DatML/RAW ist ein generischer, d.h. nicht für eine bestimmte Erhebung entwickelter Dokumenttyp für die Lieferung statistischer Rohdaten; das Format ist auf die Bedürfnisse der Berichtspflichtigen ausgerichtet, die statistische Daten in XML liefern wollen, und bildet eine abgeschlossene Komponente.
weiter...
  DatML/RES ist das zu DatML/RAW komplementäre Quittungsformat. DatML/RES unterstützt verschiedene Arten von Quittungen, z.B. Empfangsbestätigungen und Prüfprotokolle.
weiter...
  DatML/MAP beschreibt die Abbildung von Daten zwischen verschiedenen Datenmodellen bzw. Containern, z.B zwischen HTML-Formularen und DatML/RAW, zwischen sequentiellen Dateien und DatML/SET, usw.
  DatML/SSP definiert Komponenten, die von zentraler oder grundlegender Bedeutung sind, nicht einem spezifischen Dokumenttyp zugeordnet sind oder mehrfach verwendet werden; Beispiel sind Adressen, Datums- und Zeitangaben, Datensatzbeschreibungen usw.
  DatML/SDF beschreibt Erhebungen und die zu liefernden Merkmale so, dass vollständige und valide Rohdatenlieferungen einmalig oder über längere Zeiträume automatisch erzeugt werden können. Verbraucher von DatML/SDF sind z.B. Anwendungen des betrieblichen Rechnungswesens.
weiter...
  DatML/EDT beschreibt die in Plausibilitätsprüfungen verwendeten Merkmale, Prüfungen und Abläufe. Auf DatML/EDT setzen z.B. Generatoren auf, die ablauffähigen Prüfkode in verschiedenen Programmiersprachen erzeugen.
  DatML/SET ist der Dokumenttyp für die Beschreibung statistischer Datenbestände ab der Rohdatenübernahme, d.h. ab der Phase der Plausibilisierung, während der Auswertung und bis anwendungs- und plattformneutralen Archivierung.
  DatML/ASK für die Beschreibung von Fragebögen.

 

Status und Dokumentation

DatML befindet sich zur Zeit noch in der Entwicklung. Die einzelnen Komponenten bzw. Unterformate werden schrittweise entwickelt und freigegeben. Die nächsten geplanten Entwicklungsschritte umfassen eine Untermenge von DatML/SSP, nämlich Datensatzbe- schreibungen, DatML/SDF und DatML/RES. Bis 2005 soll DatML/SET soweit entwickelt sein, daß es zur Archivierung von Datenbeständen verwendet werden kann.


zum Seitenanfang


DatML/RAW
 
Verwendung
DatML/RAW (Data Markup Language - Raw Data) ist ein XML-Dokumenttyp für die Lieferung statistischer Roh- und Metadaten per Datei. Seine Struktur ist auf größtmögliche Flexibilität ausgelegt. Sie erlaubt die Lieferung von Daten mehrerer beliebiger Erhebungen für unterschiedliche Berichtszeiträume von verschiedenen Berichtspflichtigen in einem Dokument, wobei Daten für verschiedene Empfänger bestimmt sein können. DatML/RAW ist sowohl aus Absender- wie aus Empfängersicht mandantenfähig. Desweiteren unterstützt DatML/RAW eine Reihe von Zusatzfunktionen wie Testunterstützung, Adreßänderung und Empfangsbestätigung. DatML/RAW steht in einer deutschen und einer englischen Version zur Verfügung, die sich lediglich durch die unterschiedliche Benennung der Elemente, Attribute und der vordefinierten Attributwerte unterscheiden.

Nachrichten
Ein DatML/RAW-Dokument enthält eine oder mehrere sogenannte Nachrichten. Eine Nachricht kann in beliebig viele Teilnachrichten, sogenannte Segmente (<segment>), zerlegt werden. Jedes Segment hat einen eigenen Satz von Metadaten. Es ist außerdem möglich, Segmente zu schachteln und damit Metadaten (und die ihnen nachgeordneten Daten) innerhalb einer Nachricht hierarchisch anzuordnen. So kann ein Absender, der Daten für mehrere Berichtspflichtige übermittelt, die Daten eines jeden zusammenhängend als Nachricht ablegen; ein anderer Absender, der nur eigene Daten übermittelt, kann Nachrichten für die Trennung von Berichtszeiträumen verwenden (z.B. eine Nachlieferung, die mit den aktuellen Daten geliefert wird). Die Aufteilung in eine oder mehrere Nachrichten und deren Segmentierung ist für die Verwendung und Verarbeitung der Daten unerheblich, da alle Metadaten auf Satzebene zusammengeführt werden, bietet aber ein Mittel zur Strukturierung des Dokumentes und zur Redundanzvermeidung.

zum Seitenanfang


Absender und Empfänger
Jedes DatML/RAW-Dokument muß genau einen Absender und einen Empfänger angeben. Der Absender versendet das Dokument; er kann selbst Berichtspflichtiger sein und/oder für Dritte berichten; in jedem Fall muß er berechtigt sein, am Meldeverfahren teilzunehmen. Für Änderungen der Adreß- und Kontaktinformationen des Absenders bzw. des Berichtspflichtigen steht der Knoten <korrektur> zur Verfügung.

Berichtspflichtige und Berichtempfänger
Es können Daten beliebig vieler Berichtspflichtiger an beliebig viele Berichtsempfänger (die erhebenden Stellen) in einem Dokument übermittelt werden. Die notwendigen Informationen werden wie die übrigen Metadaten angeordnet (s. SpezifikationPer Default sind der Berichtspflichtige mit dem Absender und der Berichtsempfänger mit dem Empfänger des Dokumentes identisch. Für Änderungen der Adreß- und Kontaktinformationen eines Berichtspflichtigen steht der Knoten <korrektur> zur Verfügung.

zum Seitenanfang


Adreßangaben
Einige der in Adreßangaben erlaubten Bestandteile werden in Deutschland üblicherweise nicht benutzt, z.B. <kreis>; diese Angaben dienen vor allem dazu, die Elemente "verlustfrei" auf eine englische (bzw. internationale) Version und umgekehrt zu mappen. Grundsätzlich sollten Adressen immer so vollständig wie möglich angegeben werden. Für Korrekturen wird ein identisches Inhaltsmodell verwendet. In beiden Fällen können Muß-Angaben (Straße, PLZ, Ort) als leere Elemente abgelegt werden, wenn keine Daten für sie vorhanden sind, aber ein valides Dokument erzeugt werden soll.

Metadaten
Metadaten (Berichtspflichtiger, Berichtsempfänger, Erhebung, Berichtszeitraum, Materialbezeichnung) werden sämtlich als Kindknoten des Elementes <segment> abgelegt. Da <segment> ein rekursives Element ist, erlaubt es die Anorderung der Metadaten wahlweise als flache Sequenz oder in beliebiger hierarchischer Anordnung.

zum Seitenanfang


Datensätze und Daten
Nutzdaten werden als Datensatz in Form einer Folge von Merkmalen (<mm>) abgelegt und durch Attribute beschrieben. Ein Datensatz ist - wie die Metadaten, s. Spezifikation - dem Element <segment> nachgeordnet, jedoch wird durch ihn die Rekursion des Elementes beendet. Die Datensätze "hängen" - bildlich gesprochen - an den übergeordneten Metadaten.

DatML/RAW verlangt nicht, daß die Merkmale in einer bestimmten Reihenfolge abgelegt werden, sondern lediglich die Angabe einer Merkmalsbezeichnung, mit deren Hilfe ein Merkmal und der mit ihm verbundene Wert einem Feld in einem Datensatz eindeutig zugeordnet werden kann. Zur noch offenen Frage der Gruppierung und Wiederholung von Merkmalen s. Spezifikation.

Eine weitere Möglichkeit ist die Verwendung von Ordnungsmerkmalen. Ordnungsmerkmale repräsentieren zum Datensatz gehörende Felder, anhand denen Sätze in auf- oder absteigender Folge angeordnet werden. DatML/RAW stellt für die Abbildung von Ordnungsmerkmalen das Element <omm> zu Verfügung, dem entweder weitere Ordnungsmerkmale oder Datensätze nachgeordnet sind. Die Werte eines Ordnungsmerkmales werden in diese Folge eingestreut. Technisch gesehen werden Ordnungsmerkmale dadurch aus den Datensätzen herausgelöst, verbunden mit dem Vorteil einer Redundanzverringerung. Bei der Abbildung einer DatML-Struktur auf eine flache Datensatzstruktur werden die aktuellen Werte in den jeweiligen Datensatz übernommen.

Die Verwendung von Ordnungsmerkmalen ist daher vor allem ein Mittel der Redundanzvermeidung und der Abbildung von Ordnungshierarchien. Ein Folge von Datensätzen wird jeweils genau einem Wert eines Ordnungsmerkmales (und ggf. denen übergeordneter Ordnungsmerkmal) zugeordnet. Ein sortierte Ablage der Datensätze wird nicht erzwungen.

Innerhalb eines Segments müssen Ordnungsmerkmale stets gleich tief geschachtelt sein (d.h. alle Pfade vom höchten bis zum niedrigsten Ordnungsmerkmal sind gleich lang) und Ordnungsmerkmale der gleichen Hierarchiestufe immer den gleichen Namen haben, also dasselbe Ordnungskriterium beschreiben.

zum Seitenanfang


Sortierung
DatML erfordert keinerlei Sortierung und betrachtet weder Datensätze noch Merkmale als sortiert. Ordnungsmerkmale bewirken lediglich die Zuordnung von nachgeordneten Datensätzen bzw. Ordnungsmerkmalen zu genau einer Wertausprägung auf der aktuellen Hierarchiestufe, die Folge der Wertausprägungen eines Ordnungsmerkmals muß hingegen nicht sortiert sein (s. Spezifikation). Zur offenen Frage der Abbildung von zusammenhängenden Sätzen verschiedener Satzarten (Cluster bzw. hierarchische Datensätze) s. Spezifikation.

zum Seitenanfang


DatML/RES
 
Verwendung
DatML/RES (Data Markup Language - Response) ist ein zu DatML/RAW komplementäres Format für elektronische Quittungen, die - insbesondere in einem automatisierten Datenlieferungsprozess - an die Absender von Rohdatennachrichten gesendet werden und maschinell auswertbar sind.

zum Seitenanfang


DatML/SDF
 
Verwendung
DatML/SDF (Data Markup Language - Survey Definition Format) unterstützt mit seiner umfassenden formalen Beschreibung der Eigenschaften und Merkmale einer Erhebung die Automatisierung der Datengewinnungsprozesse in der Unternehmens-DV und die Erzeugung der Lieferdokumente. Der Einsatz effizienter generischer Methoden erleichtert dabei die Aktualisierung der Verfahren und gewährleistet eine hohe Datenqualität.

DatML/SDF befindet sich noch in der Entwicklung. Eine Beta-Version der DTD ist zum Download verfügbar.

zum Seitenanfang