Adressdaten Analyse

Ich trage hier mal einen Beitrag aus meinem alten Blog ein  um einen zentralen Blog zu führen.

Adressdaten Service ist eine detaillierte Darstellung von Adressdaten Validierung,  Adressdaten Analyse und Adressdaten Anreicherung.  Ausführlich werden Algorithmen zur Prüfung von Adressdatenbestandsteilen beschrieben in welcher Form Adressdaten geprüft werden können und anhand welcher Merkmale der Datenbestand validiert, analysiert oder angereichert werden kann. Hierzu wird ein Adressdatensatz in seine Einzelteile zerlegt und anhand von Algorithmen validiert und analysiert.

Beginnen wir mit dem Aufbau eines Adressdatensatz. Dieser besteht aus unterschiedlichen

Bestandsteilen.

Diese wären:

Vorname, Nachname, Geburtsdatum,  Geschlecht, Anrede, Straße, Hausnummer, Postleitzahl, Ort, Vorwahl Festnetztelefon, Rufnummer Festnetztelefon, Vorwahl Mobiltelefon, Rufnummer Mobiltelefon

Hinzu kommen Erhebungsmerkmale:

Teilnahmedatum, Bestätigungsdatum des Werbeeinverständnisses. Quelle des Adressdatensatz, IP Adresse bei Onlineanmeldungen, HOST bei Onlineanmeldungen,  IP Adresse bei Onlinebestätigungen des Werbeeinverständnisses, HOST bei Onlinebestätigungen des Werbeeinverständnisses, Anbieter für den das Werbeeinverständniss gilt.

Nachfolgend werden alle Bestandsteile des Adressdatensatz einzeln betrachtet analysiert und validiert.

Der Aufbau des Vornamens

Ein Vorname besteht grundsätzlich aus Zeichen von a-Z und kann zusätzlich aus bestimmte Sonderzeichen – und einem Leerzeichen bestehen. Hinzu kommen noch die üblichen länderspezifischen Sonderzeichen. (ä, ö, ü, è etc.)

Kombinationen die aus Zahlen bestehen können daher kein valider Vorname sein. Ebenso ist es unwahrscheinlich, dass ein Vorname aus mehr als 4 Sonderzeichen besteht. Genauso wenig ist es wahrscheinlich, dass ein Vorname weniger als drei Zeichen hat.

Um Sonderzeichen vereinfacht zu filtern ist es möglich in Webbasierter Software alle Sonderzeichen durch URL –encoding Zeichen zu ersetzten so kann man gezielter entsprechende Sonderzeichen filtern und ausschließen.

Eine andere Möglichkeit ist die Zerlegung des kompletten Strings und anschließend jedes Zeichen einzeln zu prüfen. Diese Methode hat den Vorteil, dass es möglich ist die Anzahl der vorkommenden Zeichen zu zählen.  Hierdurch ist es möglich häufige Zeichenwiederholungen zu korrigieren. Zudem ist es unwahrscheinlich, dass ein Vorname aus 66 Prozent aus demselben Zeichen besteht.

Weiter können wir festlegen, dass Vorname in der Regel aus nicht mehr als 20 Zeichen bestehen. Weiter können bestimmte Zeichenkombinationen ausgeschlossen werden und gewisse Klangfolgen können ebenfalls ausgeschlossen werden. Zudem ist es unwahrscheinlich, dass ein Zeichen mehr als zweimal in Folge auftritt.

Vornamensregeln

Daher können folgende Regeln festgesetzt werden.

Anzahl gleicher Zeichen < 66%
Anzahl gleicher Zeichen in Folge < 3
Anzahl der Zeichen < 21
Anzahl der Buchstaben > 2
Anzahl der Sonderzeichen < 5
Anzahl der Zahlen = 0
Anzahl der Leerzeichen = 1
Anzahl nicht zugelassener Sonderzeichen = 0