Adressdaten Analyse

Januar 2012
M	D	M	D	F	S	S
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Ich trage hier mal einen Beitrag aus meinem alten Blog ein um einen zentralen Blog zu führen.

Adressdaten Service ist eine detaillierte Darstellung von Adressdaten Validierung, Adressdaten Analyse und Adressdaten Anreicherung. Ausführlich werden Algorithmen zur Prüfung von Adressdatenbestandsteilen beschrieben in welcher Form Adressdaten geprüft werden können und anhand welcher Merkmale der Datenbestand validiert, analysiert oder angereichert werden kann. Hierzu wird ein Adressdatensatz in seine Einzelteile zerlegt und anhand von Algorithmen validiert und analysiert.

Beginnen wir mit dem Aufbau eines Adressdatensatz. Dieser besteht aus unterschiedlichen

Bestandsteilen.

Diese wären:

Vorname, Nachname, Geburtsdatum, Geschlecht, Anrede, Straße, Hausnummer, Postleitzahl, Ort, Vorwahl Festnetztelefon, Rufnummer Festnetztelefon, Vorwahl Mobiltelefon, Rufnummer Mobiltelefon

Hinzu kommen Erhebungsmerkmale:

Teilnahmedatum, Bestätigungsdatum des Werbeeinverständnisses. Quelle des Adressdatensatz, IP Adresse bei Onlineanmeldungen, HOST bei Onlineanmeldungen, IP Adresse bei Onlinebestätigungen des Werbeeinverständnisses, HOST bei Onlinebestätigungen des Werbeeinverständnisses, Anbieter für den das Werbeeinverständniss gilt.

Nachfolgend werden alle Bestandsteile des Adressdatensatz einzeln betrachtet analysiert und validiert.

Der Aufbau des Vornamens

Ein Vorname besteht grundsätzlich aus Zeichen von a-Z und kann zusätzlich aus bestimmte Sonderzeichen – und einem Leerzeichen bestehen. Hinzu kommen noch die üblichen länderspezifischen Sonderzeichen. (ä, ö, ü, è etc.)

Kombinationen die aus Zahlen bestehen können daher kein valider Vorname sein. Ebenso ist es unwahrscheinlich, dass ein Vorname aus mehr als 4 Sonderzeichen besteht. Genauso wenig ist es wahrscheinlich, dass ein Vorname weniger als drei Zeichen hat.

Um Sonderzeichen vereinfacht zu filtern ist es möglich in Webbasierter Software alle Sonderzeichen durch URL –encoding Zeichen zu ersetzten so kann man gezielter entsprechende Sonderzeichen filtern und ausschließen.

Eine andere Möglichkeit ist die Zerlegung des kompletten Strings und anschließend jedes Zeichen einzeln zu prüfen. Diese Methode hat den Vorteil, dass es möglich ist die Anzahl der vorkommenden Zeichen zu zählen. Hierdurch ist es möglich häufige Zeichenwiederholungen zu korrigieren. Zudem ist es unwahrscheinlich, dass ein Vorname aus 66 Prozent aus demselben Zeichen besteht.

Weiter können wir festlegen, dass Vorname in der Regel aus nicht mehr als 20 Zeichen bestehen. Weiter können bestimmte Zeichenkombinationen ausgeschlossen werden und gewisse Klangfolgen können ebenfalls ausgeschlossen werden. Zudem ist es unwahrscheinlich, dass ein Zeichen mehr als zweimal in Folge auftritt.

Vornamensregeln

Daher können folgende Regeln festgesetzt werden.

Anzahl gleicher Zeichen	< 66%
Anzahl gleicher Zeichen in Folge	< 3
Anzahl der Zeichen	< 21
Anzahl der Buchstaben	> 2
Anzahl der Sonderzeichen	< 5
Anzahl der Zahlen	=	0
Anzahl der Leerzeichen	=	1
Anzahl nicht zugelassener Sonderzeichen	=	0

2 Antworten zu „Adressdaten Analyse“

Rene

Juli 17, 2012

Was, wenn sich Al Gore eintragen möchte? :->

Antworten
Manuel H. Müller

Juli 17, 2012

Al Gore würde ich persönlich als Streu-Verlust vernachlässigen. Da das ganze doch ehr nach einem Kürzel oder Künstlernamen klingt.
Aber die Analyse des Vornamens wie ich sie beschrieben habe ist auch nur ein Teilprozess.
Blacklisten Abgleiche, Namensdatenbank Abgleich und Co. sollte man natürlich nicht vernachlässigen.

Antworten

Hinterlasse einen Kommentar Antwort abbrechen

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..