Beschreibung
DatML (Data Markup Language) ist ein XML-basierter Dokumenttyp für statistische Daten; er
unterstützt den gesamten statistischen Produktionsprozeß von der Erhebung der Daten über
ihre Plausibilisierung bis zur eigentlichen Verarbeitung und schließlich Archivierung.
Den unterschiedlichen Anforderungen im Laufe des Produktionsprozesses entspricht die
Unterteilung des Dokumenttyps in eine Reihe von Unterformaten, die untereinander eine
konsistente Metadatenhaltung ermöglichen. Einige Komponenten, wie z.B. Datensatzbeschreibungen,
werden in mehreren Unterformaten verwendet. Im Einzelnen:
| |
DatML/RAW
|
ist ein generischer, d.h. nicht für eine bestimmte Erhebung entwickelter Dokumenttyp für
die Lieferung statistischer Rohdaten; das Format ist auf die Bedürfnisse der Berichtspflichtigen
ausgerichtet, die statistische Daten in XML liefern wollen, und bildet eine abgeschlossene Komponente.
weiter...
|
| |
DatML/RES
|
ist das zu DatML/RAW komplementäre Quittungsformat. DatML/RES unterstützt verschiedene Arten
von Quittungen, z.B. Empfangsbestätigungen und Prüfprotokolle.
weiter...
|
| |
DatML/MAP
|
beschreibt die Abbildung von Daten zwischen verschiedenen Datenmodellen bzw. Containern, z.B zwischen
HTML-Formularen und DatML/RAW, zwischen sequentiellen Dateien und DatML/SET, usw.
|
| |
DatML/SSP
|
definiert Komponenten, die von zentraler oder grundlegender Bedeutung sind, nicht einem spezifischen Dokumenttyp
zugeordnet sind oder mehrfach verwendet werden; Beispiel sind Adressen, Datums- und Zeitangaben, Datensatzbeschreibungen
usw.
|
| |
DatML/SDF
|
beschreibt Erhebungen und die zu liefernden Merkmale so, dass vollständige und valide Rohdatenlieferungen
einmalig oder über längere Zeiträume automatisch erzeugt werden können. Verbraucher
von DatML/SDF sind z.B. Anwendungen des betrieblichen Rechnungswesens.
weiter...
|
| |
DatML/EDT
|
beschreibt die in Plausibilitätsprüfungen verwendeten Merkmale, Prüfungen und Abläufe. Auf
DatML/EDT setzen z.B. Generatoren auf, die ablauffähigen Prüfkode in verschiedenen Programmiersprachen
erzeugen.
|
| |
DatML/SET
|
ist der Dokumenttyp für die Beschreibung statistischer Datenbestände ab der Rohdatenübernahme, d.h. ab
der Phase der Plausibilisierung, während der Auswertung und bis anwendungs- und plattformneutralen Archivierung.
|
| |
DatML/ASK
|
für die Beschreibung von Fragebögen.
|
Status und Dokumentation
DatML befindet sich zur Zeit noch in der Entwicklung. Die einzelnen
Komponenten bzw. Unterformate werden schrittweise entwickelt und freigegeben. Die nächsten
geplanten Entwicklungsschritte umfassen eine Untermenge von DatML/SSP, nämlich Datensatzbe-
schreibungen, DatML/SDF und DatML/RES. Bis 2005 soll DatML/SET soweit entwickelt sein,
daß es zur Archivierung von Datenbeständen verwendet werden kann.
|
DatML/RAW
|
| |
|
Downloads
|
Verwendung
DatML/RAW (Data Markup Language - Raw Data) ist ein XML-Dokumenttyp für die Lieferung statistischer Roh- und
Metadaten per Datei. Seine Struktur ist auf größtmögliche Flexibilität ausgelegt.
Sie erlaubt die Lieferung von Daten mehrerer beliebiger Erhebungen für unterschiedliche Berichtszeiträume
von verschiedenen Berichtspflichtigen in einem Dokument, wobei Daten für verschiedene Empfänger bestimmt
sein können. DatML/RAW ist sowohl aus Absender- wie aus Empfängersicht mandantenfähig. Desweiteren
unterstützt DatML/RAW eine Reihe von Zusatzfunktionen wie Testunterstützung, Adreßänderung und
Empfangsbestätigung.
DatML/RAW steht in einer deutschen und einer englischen Version zur Verfügung, die sich lediglich durch
die unterschiedliche Benennung der Elemente, Attribute und der vordefinierten Attributwerte unterscheiden.
Nachrichten
Ein DatML/RAW-Dokument enthält eine oder mehrere sogenannte Nachrichten. Eine Nachricht kann in beliebig
viele Teilnachrichten, sogenannte Segmente (<segment>), zerlegt werden. Jedes Segment hat einen eigenen
Satz von Metadaten. Es ist außerdem möglich, Segmente zu schachteln und damit Metadaten (und die ihnen
nachgeordneten Daten) innerhalb einer Nachricht hierarchisch anzuordnen.
So kann ein Absender, der Daten für mehrere Berichtspflichtige übermittelt, die Daten eines jeden zusammenhängend
als Nachricht ablegen; ein anderer Absender, der nur eigene Daten übermittelt, kann Nachrichten für die Trennung
von Berichtszeiträumen verwenden (z.B. eine Nachlieferung, die mit den aktuellen Daten geliefert wird).
Die Aufteilung in eine oder mehrere Nachrichten und deren Segmentierung ist für die Verwendung und Verarbeitung
der Daten unerheblich, da alle Metadaten auf Satzebene zusammengeführt werden, bietet aber ein Mittel zur
Strukturierung des Dokumentes und zur Redundanzvermeidung.
Absender und Empfänger
Jedes DatML/RAW-Dokument muß genau einen Absender und einen Empfänger angeben. Der Absender versendet
das Dokument; er kann selbst Berichtspflichtiger sein und/oder für Dritte berichten; in jedem Fall muß
er berechtigt sein, am Meldeverfahren teilzunehmen. Für Änderungen der Adreß- und Kontaktinformationen
des Absenders bzw. des Berichtspflichtigen steht der Knoten <korrektur> zur Verfügung.
Berichtspflichtige und Berichtempfänger
Es können Daten beliebig vieler Berichtspflichtiger an beliebig viele Berichtsempfänger (die erhebenden
Stellen) in einem Dokument übermittelt werden. Die notwendigen Informationen werden wie die übrigen
Metadaten angeordnet (s. SpezifikationPer Default sind der Berichtspflichtige mit dem Absender
und der Berichtsempfänger mit dem Empfänger des Dokumentes identisch. Für Änderungen der Adreß-
und Kontaktinformationen eines Berichtspflichtigen steht der Knoten <korrektur> zur Verfügung.
Adreßangaben
Einige der in Adreßangaben erlaubten Bestandteile werden in Deutschland üblicherweise nicht benutzt,
z.B. <kreis>; diese Angaben dienen vor allem dazu, die Elemente "verlustfrei" auf eine englische (bzw.
internationale) Version und umgekehrt zu mappen. Grundsätzlich sollten Adressen immer so vollständig wie
möglich angegeben werden. Für Korrekturen wird ein identisches Inhaltsmodell verwendet. In beiden Fällen
können Muß-Angaben (Straße, PLZ, Ort) als leere Elemente abgelegt werden, wenn keine Daten
für sie vorhanden sind, aber ein valides Dokument erzeugt werden soll.
Metadaten
Metadaten (Berichtspflichtiger, Berichtsempfänger, Erhebung, Berichtszeitraum, Materialbezeichnung)
werden sämtlich als Kindknoten des Elementes <segment> abgelegt. Da <segment> ein rekursives
Element ist, erlaubt es die Anorderung der Metadaten wahlweise als flache Sequenz oder in beliebiger
hierarchischer Anordnung.
Datensätze und Daten
Nutzdaten werden als Datensatz in Form einer Folge von Merkmalen (<mm>) abgelegt und durch
Attribute beschrieben. Ein Datensatz ist - wie die Metadaten, s. Spezifikation - dem
Element <segment> nachgeordnet, jedoch wird durch ihn die Rekursion des Elementes beendet.
Die Datensätze "hängen" - bildlich gesprochen - an den übergeordneten Metadaten.
DatML/RAW verlangt nicht, daß die Merkmale in einer bestimmten Reihenfolge abgelegt werden,
sondern lediglich die Angabe einer Merkmalsbezeichnung, mit deren Hilfe ein Merkmal und der mit ihm
verbundene Wert einem Feld in einem Datensatz eindeutig zugeordnet werden kann. Zur noch offenen Frage
der Gruppierung und Wiederholung von Merkmalen s. Spezifikation.
Eine weitere Möglichkeit ist die Verwendung von Ordnungsmerkmalen. Ordnungsmerkmale repräsentieren
zum Datensatz gehörende Felder, anhand denen Sätze in auf- oder absteigender Folge angeordnet werden.
DatML/RAW stellt für die Abbildung von Ordnungsmerkmalen das Element <omm> zu Verfügung, dem
entweder weitere Ordnungsmerkmale oder Datensätze nachgeordnet sind. Die Werte eines Ordnungsmerkmales
werden in diese Folge eingestreut. Technisch gesehen werden Ordnungsmerkmale dadurch aus den
Datensätzen herausgelöst, verbunden mit dem Vorteil einer Redundanzverringerung. Bei der Abbildung
einer DatML-Struktur auf eine flache Datensatzstruktur werden die aktuellen Werte in den jeweiligen
Datensatz übernommen.
Die Verwendung von Ordnungsmerkmalen ist daher vor allem ein Mittel der Redundanzvermeidung und der
Abbildung von Ordnungshierarchien. Ein Folge von Datensätzen wird jeweils genau einem Wert eines
Ordnungsmerkmales (und ggf. denen übergeordneter Ordnungsmerkmal) zugeordnet. Ein sortierte Ablage
der Datensätze wird nicht erzwungen.
Innerhalb eines Segments müssen Ordnungsmerkmale stets gleich tief geschachtelt sein (d.h. alle Pfade
vom höchten bis zum niedrigsten Ordnungsmerkmal sind gleich lang) und Ordnungsmerkmale der gleichen
Hierarchiestufe immer den gleichen Namen haben, also dasselbe Ordnungskriterium beschreiben.
Sortierung
DatML erfordert keinerlei Sortierung und betrachtet weder Datensätze noch Merkmale als sortiert.
Ordnungsmerkmale bewirken lediglich die Zuordnung von nachgeordneten Datensätzen bzw. Ordnungsmerkmalen
zu genau einer Wertausprägung auf der aktuellen Hierarchiestufe, die Folge der Wertausprägungen eines
Ordnungsmerkmals muß hingegen nicht sortiert sein (s. Spezifikation).
Zur offenen Frage der Abbildung von zusammenhängenden Sätzen verschiedener Satzarten (Cluster bzw.
hierarchische Datensätze) s. Spezifikation.
|
|
DatML/RES
|
| |
|
Downloads
|
Verwendung
DatML/RES (Data Markup Language - Response) ist ein zu DatML/RAW komplementäres Format für elektronische Quittungen,
die - insbesondere in einem automatisierten Datenlieferungsprozess - an die Absender von Rohdatennachrichten gesendet werden
und maschinell auswertbar sind.
|
|
DatML/SDF
|
| |
|
Downloads
|
Verwendung
DatML/SDF (Data Markup Language - Survey Definition Format) unterstützt mit seiner umfassenden formalen Beschreibung
der Eigenschaften und Merkmale einer Erhebung die Automatisierung der Datengewinnungsprozesse in der Unternehmens-DV und
die Erzeugung der Lieferdokumente.
Der Einsatz effizienter generischer Methoden erleichtert dabei die Aktualisierung der Verfahren und gewährleistet
eine hohe Datenqualität.
DatML/SDF befindet sich noch in der Entwicklung.
Eine Beta-Version der DTD ist zum Download verfügbar.
|
|