Die Datenerfassung bildet einen frühen Schritt
innerhalb des Data-Processing-Ablaufs. Dieser Vorgang umfasst das Sammeln und
Ordnen von Informationen aus verschiedenen Quellen, darunter Dokumente, Archive,
Formulare, Protokolle und unstrukturierte Texte.
Im Rahmen dieses Prozesses werden Methoden wie Extraktion, Validierung und
Vorstrukturierung eingesetzt. Diese dienen dazu, Inhalte in eine Form zu bringen,
die für nachfolgende Arbeitsschritte weiterverwendet werden kann.
Dazu zählen unter anderem Ansätze aus der semantischen Analyse, der Identifikation
wiederkehrender Muster sowie regelbasierte Verfahren. Diese ermöglichen es, Daten
in Zusammenhangsbezüge einzubetten, die für spätere Interpretations- oder
Modellierungsprozesse genutzt werden können.
Auf diese Weise entsteht ein Informationsstand, der als Ausgangspunkt für
weitere Schritte innerhalb der Informationsaufbereitung herangezogen werden kann.