Lade Inhalt...

Digitalanalyse als Ansatz zur Betrugserkennung in Finanzdaten

©2004 Diplomarbeit 126 Seiten

Zusammenfassung

Inhaltsangabe:Zusammenfassung:
Zusammen mit dem Bedarf an Kennzahlen für die Abbildung wirtschaftlicher Vorgänge wächst auch das Risiko, welches aus fehlerhaften Daten resultiert.
So sind neben den Finanzbehörden des Staates insbesondere Versicherungen, Kreditkarteninstitute und Telefongesellschaften von betrügerischen Handlungen betroffen. Aber auch große Unternehmen oder die Forschung, insbesondere die Medizin und Pharmazie, bei denen häufig viel Geld am Ausgang einer empirischen Studie hängt, leiden unter gefälschten
Angaben.
Um dieses Risiko gefälschter Daten zu handhaben, wurden zur Vermeidung von fehlerhaften Daten Revisionssysteme für Unternehmen bzw. Prüfsysteme im weiteren Sinne eingeführt. Diese basieren grundsätzlich immer auf der Bildung von geeigneten Stichproben zur Prüfung, da eine vollständige Prüfung aller Vorgänge auf Grund deren Menge nicht durchführbar ist. Die Wahl dieser Prüfstichproben kann durch mathematisch-statistische Verfahren unterstützt werden.
Ziel dieser Arbeit ist es, verschiedene Ansätze für die Analyse von Einzeldaten vergleichend vorzustellen und auf Daten aus der Praxis anzuwenden. Dabei werden ausschließlich Ansätze zur Erkennung von Betrug in Einzelangaben ohne direkten Zusammenhang betrachtet. Dies sind insbesondere rein statistische Ansätze im Umfeld von Benford’s-Law, Verfahren auf Basis von Mischungsmodellen und Ansätze mit Hilfe der Partitionierungsverfahren.
Alle Verfahren basieren auf der Mantissenstatistik, welche von der Größe der Zahl abstrahiert und lediglich die verwendeten Ziffern und ihre relativen Positionen innerhalb der Zahl beschreibt.
Ein weiteres Ziel ist die Betrachtung der Mantissen einiger Standardverteilungen durch Simulationen. Dabei werden insbesondere die Abhängigkeit der Mantissenverteilung von den Parametern der Standardverteilung und der Basis untersucht. Ziel ist dabei, ein tieferes Verständnis der Mantissenverteilungen zu gewinnen, um in Zukunft verbesserte Ansätze zur Betrugserkennung basierend auf dieser Statistik gewinnen zu können.


Inhaltsverzeichnis:Inhaltsverzeichnis:
Inhaltsverzeichnisi
Abbildungsverzeichnisiv
Tabellenverzeichnisvi
Einleitung1
1.Begriffsdefinitionen2
1.1Betrug2
1.2Betrugserkennung4
1.3Digitalanalyse5
1.4Ansätze der Digitalanalyse7
2.Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen8
2.1Grundidee8
2.2Benford’s-Law als erster Ansatz zur Betrugserkennung9
2.2.1Definition und spezielle Eigenschaften9
2.2.2Betrugsanalyse mit […]

Leseprobe

Inhaltsverzeichnis


ID 8743
Dlugosz, Stephan: Digitalanalyse als Ansatz zur Betrugserkennung in Finanzdaten
Hamburg: Diplomica GmbH, 2005
Zugl.: Westfälische Wilhelms-Universität Münster, Diplomarbeit, 2004
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2005
Printed in Germany

Inhaltsverzeichnis
Inhaltsverzeichnis
i
Abbildungsverzeichnis
iv
Tabellenverzeichnis
vi
Einleitung
1
1
Begriffsdefinitionen
2
1.1
Betrug . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Betrugserkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
Digitalanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.4
Ansätze der Digitalanalyse . . . . . . . . . . . . . . . . . . . . . . . . .
7
2
Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
8
2.1
Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.2
Benford's-Law als erster Ansatz zur Betrugserkennung . . . . . . . . . .
9
2.2.1
Definition und spezielle Eigenschaften . . . . . . . . . . . . . . .
9
2.2.2
Betrugsanalyse mit Benford's-Law . . . . . . . . . . . . . . . . .
12
2.2.3
Distortion-Factor-Model . . . . . . . . . . . . . . . . . . . . . .
15
2.2.4
Erklärungen für das Auftreten von Benford's-Law
. . . . . . . .
17
2.2.5
Testansätze mit Benford's-Law als Nullhypothese . . . . . . . . .
22
2.2.6
Kritik an Benford's-Law als Ansatz zur Betrugserkennung . . . .
25
2.3
Familie von Proxie-Verteilungen . . . . . . . . . . . . . . . . . . . . . .
26
2.3.1
Definitionen
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.3.2
Eigenschaften der Proxie-Verteilungen . . . . . . . . . . . . . . .
28
2.4
Digitalanalyse mit Power-Laws . . . . . . . . . . . . . . . . . . . . . . .
31
2.4.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.4.2
Eigenschaften der Power-Laws . . . . . . . . . . . . . . . . . . .
31
2.5
Kritik an der Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen . . . . .
34
i

3
Bestimmung der Mantissenverteilung ausgewählter Standardvertei-
lungen
35
3.1
Ziel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.2
Simulationen der ersten signifikanten Ziffern
. . . . . . . . . . . . . . .
36
3.2.1
Simulationsergebnisse ohne Trunkierung . . . . . . . . . . . . .
36
3.2.2
Simulationsergebnisse mit Trunkierung . . . . . . . . . . . . . .
39
3.3
Anpassungen von Standardverteilungen an Benford's-Law . . . . . . . .
42
3.3.1
Simulationsergebnisse bei unterschiedlichen Basen . . . . . . . .
42
3.3.2
Simulationsergebnisse bei unterschiedlichen Skalen . . . . . . . .
44
4
Digitalanalyse mit Hilfe von Partitionierungsverfahren
46
4.1
Grundlagen der Partitionierungsverfahren . . . . . . . . . . . . . . . . .
46
4.2
Partitionierungsverfahren zur Digitalanalyse . . . . . . . . . . . . . . . .
47
4.2.1
Wahl eines geeigneten metrischen Raums . . . . . . . . . . . . .
47
4.2.2
Wahl eines geeigneten Verfahrens . . . . . . . . . . . . . . . . .
48
4.3
Kritik an der Digitalanalyse mit Hilfe von Partitionierungsverfahren . . .
49
5
Digitalanalyse mit Hilfe von Mischungsmodellen
51
5.1
Grundlagen der Mischungsmodelle . . . . . . . . . . . . . . . . . . . . .
51
5.1.1
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . .
51
5.1.2
EM-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5.2
Anwendung von Mischungsmodellen zur Betrugserkennung . . . . . . .
57
5.2.1
Vorgehensmodell . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.2.2
Angepasster EM-Algorithmus . . . . . . . . . . . . . . . . . . .
57
5.3
Partitionierungsverfahren für Mischungsmodelle
. . . . . . . . . . . . .
60
5.3.1
Variante des EM-Algorithmus zum Partitionieren . . . . . . . . .
60
5.3.2
Maximum-Likelihood-Ansatz . . . . . . . . . . . . . . . . . . .
60
5.3.3
Klassifikation nach maximaler a-posteriori-Wahrscheinlichkeit . .
62
5.4
Erweiterung des Ansatzes mit Mischungsmodellen um Basis- bzw. Ska-
leninvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
5.5
Kritik an der Digitalanalyse mit Hilfe von Mischungsmodellen . . . . . .
63
6
Anwendung der Digitalanalyse
65
6.1
Datenquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
6.2
Auswahl einer Stichprobe mit Hilfe von reinem Zufall
. . . . . . . . . .
68
6.3
Ergebnisse der Analyse der Praxisdaten . . . . . . . . . . . . . . . . . .
68
6.3.1
Analyse mit Benford's-Law . . . . . . . . . . . . . . . . . . . .
68
6.3.2
Analyse mit allgemeinen Erste-Ziffer-Gesetzen . . . . . . . . . .
72
ii

6.4
Analyse und Vergleich der simulierten Daten
. . . . . . . . . . . . . . .
73
6.4.1
Analyseergebnisse . . . . . . . . . . . . . . . . . . . . . . . . .
73
6.4.2
Vergleich der Ergebnisse . . . . . . . . . . . . . . . . . . . . . .
76
7
Ausblick
77
Zusammenfassung
79
Literaturverzeichnis
81
Anhang
84
A Berechnungen zum theoretischen Fit ausgewählter Standardvertei-
lungen mit Benford's-Law
84
B Simulationsergebnisse
88
B.1 Mantissenverteilungen ausgewählter Standardverteilungen . . . . . . . .
88
B.2 Simulationsergebnisse der Anpasssung von Standardverteilungen an Benford's-
Law . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
C Ergebnisse der Analyse der Praxisdaten
105
D Simulationsdaten für den Vergleich
115
iii

Abbildungsverzeichnis
1.1
Taxonomie des Betrugs: Erfolgsaussichten der Betrugserkennung mit sta-
tistischen Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2
Finanzdaten als Mischung von verfälschten und unverfälschten Daten . .
4
2.1
Finanzdaten als Mischung von verfälschten und unverfälschten (nach ei-
nem Erste-Ziffer-Gesetz verteilten) Daten . . . . . . . . . . . . . . . . .
8
2.2
Verteilung der Häufigkeiten der ersten Ziffern einer Zahl im Zehnersys-
tem nach Benford's-Law . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.3
Stetige Dichte nach Benford's-Law . . . . . . . . . . . . . . . . . . . . .
10
2.4
Anteil
1
(x) der Zahlen mit der Anfangsziffer Eins unter den Zahlen
[1, x) auf der halblogarithmischen Skala . . . . . . . . . . . . . . . . . .
19
3.1
Erste signifikante Ziffern einer Paretoverteilung mit Erwartungswert 10
und Varianz 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
3.2
Erste signifikante Ziffern einer Lognormalverteilung mit Erwartungswert 6
und Varianz 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.3
Erste signifikante Ziffern einer Gammaverteilung mit Erwartungswert 8
und Varianz 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.4
Mantisse einer Exponentialverteilung mit dem Erwartungswert 5 und Trun-
kierung bei 5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.5
Mantisse einer Lognormalverteilung mit Erwartungswert 2 und Varianz 3
mit Trunkierung bei 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.6
Mantisse einer Gammaverteilung mit Erwartungswert 10 und Varianz 6
mit Trunkierung bei 10 . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.7
2
-Statistik der konstruierten Verteilung zu verschiedenen Basen . . . . .
42
3.8
Kolmogoroff-Smirnoff-Statistik der konstruierten Verteilung zu verschie-
denen Basen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.9
2
-Statistik der konstruierten Verteilung bei verschiedenen Skalentrans-
formationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.10 Kolmogoroff-Smirnoff-Statistik der konstruierten Verteilung bei verschie-
denen Skalentransformationen . . . . . . . . . . . . . . . . . . . . . . .
45
iv

5.1
Finanzdaten als Mischung von verfälschten und unverfälschten Daten mit
verschiedenen Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
57
6.1
Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.2
Häufigkeiten der ersten Ziffer . . . . . . . . . . . . . . . . . . . . . . . .
69
6.3
Häufigkeiten der zweiten Ziffer . . . . . . . . . . . . . . . . . . . . . . .
70
6.4
Häufigkeiten der letzten Ziffer . . . . . . . . . . . . . . . . . . . . . . .
70
v

Tabellenverzeichnis
2.1
Häufigkeiten der ersten vier Ziffern nach Benford's-Law . . . . . . . . .
9
2.2
Erwartete Wahrscheinlichkeiten für den Rounded-Numbers-Test . . . . .
15
2.3
Verteilung der ersten Ziffern nach Stigler's Law . . . . . . . . . . . . . .
19
2.4
Theoretischer Fit von Benford's-Law als Mantissenverteilung für ausge-
wählte Standardverteilungen . . . . . . . . . . . . . . . . . . . . . . . .
21
3.1
Wahrscheinlichkeiten der Ziffermengen {k - 1, k, k + 1} . . . . . . . . .
39
5.1
Häufigkeiten der ersten zwei Ziffern bei sechsstelligen erfundenen Zahlen
58
6.1
Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.2
Tabelle des
2
- und Kolmogoroff-Smirnoff-Tests auf Benford's-Law für
die Praxisdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
6.3
Häufigkeiten der ersten und letzten Ziffer
. . . . . . . . . . . . . . . . .
69
6.4
Ergebnisse des Rounded-Numbers-Test für die Praxisdaten . . . . . . . .
71
6.5
Anpassungen der monotonen Erste-Ziffer-Verteilungen nach der direkten
und der umgekehrten Methode . . . . . . . . . . . . . . . . . . . . . . .
72
6.6
Anteile der Hill'schen Verteilung an den mit Benford's-Law ausgewählten
Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
6.7
Anteile der Hill'schen Verteilung an den mit Benford's-Law ausgewählten
Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
6.8
Anteile der Hill'schen Verteilung an den mit dem Power-Law ausgewähl-
ten Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
6.9
Anteile der Hill'schen Verteilung an den mit dem Power-Law ausgewähl-
ten Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
6.10 Anteile der Hill'schen Verteilung an den zufällig ausgewählten Stichproben 75
vi

Einleitung
Zusammen mit dem Bedarf an Kennzahlen für die Abbildung wirtschaftlicher Vorgänge
wächst auch das Risiko, welches aus fehlerhaften Daten resultiert.
So sind neben den Finanzbehörden des Staates insbesondere Versicherungen, Kreditkar-
teninstitute und Telefongesellschaften von betrügerischen Handlungen betroffen. Aber
auch große Unternehmen oder die Forschung, insbesondere die Medizin und Pharmazie,
bei denen häufig viel Geld am Ausgang einer empirischen Studie hängt, leiden unter ge-
fälschten Angaben.
1
Um dieses Risiko gefälschter Daten zu handhaben, wurden zur Vermeidung von fehlerhaf-
ten Daten Revisionssysteme für Unternehmen bzw. Prüfsysteme im weiteren Sinne ein-
geführt. Diese basieren grundsätzlich immer auf der Bildung von geeigneten Stichproben
zur Prüfung, da eine vollständige Prüfung aller Vorgänge auf Grund deren Menge nicht
durchführbar ist. Die Wahl dieser Prüfstichproben kann durch mathematisch-statistische
Verfahren unterstützt werden.
Ziel dieser Arbeit ist es, verschiedene Ansätze für die Analyse von Einzeldaten verglei-
chend vorzustellen und auf Daten aus der Praxis anzuwenden. Dabei werden ausschließ-
lich Ansätze zur Erkennung von Betrug in Einzelangaben ohne direkten Zusammenhang
betrachtet. Dies sind insbesondere rein statistische Ansätze im Umfeld von Benford's-
Law, Verfahren auf Basis von Mischungsmodellen und Ansätze mit Hilfe der Partitionie-
rungsverfahren.
Alle Verfahren basieren auf der Mantissenstatistik, welche von der Größe der Zahl ab-
strahiert und lediglich die verwendeten Ziffern und ihre relativen Positionen innerhalb
der Zahl beschreibt.
Ein weiteres Ziel ist die Betrachtung der Mantissen einiger Standardverteilungen durch
Simulationen. Dabei werden insbesondere die Abhängigkeit der Mantissenverteilung von
den Parametern der Standardverteilung und der Basis untersucht. Ziel ist dabei, ein tiefe-
res Verständnis der Mantissenverteilungen zu gewinnen, um in Zukunft verbesserte An-
sätze zur Betrugserkennung basierend auf dieser Statistik gewinnen zu können.
1
Einen Überblick gibt [Bolton und Hand, 2002].
1

1 Begriffsdefinitionen
1.1 Betrug
Der Brockhaus definiert den Begriff ,,Betrug" folgendermaßen:
2
,,Betrug, im Strafrecht die in Bereicherungsabsicht durch Täuschung verursachte Schä-
digung des Vermögens eines anderen; wird mit Freiheits- oder Geldstrafe bestraft."
In dieser Arbeit soll dabei der Fokus auf das Täuschen mit falschen numerischen Daten
gelegt werden, welche mit Hilfe mathematisch-statistischer Methoden untersucht wer-
den können. Dazu zählen beispielsweise Finanzdaten von Unternehmungen in Form von
Bilanzen (Handels- und Steuerbilanzen), Spesenabrechnungen, Schadensmeldungen bei
Versicherungen oder auch private Steuererklärungen.
Für die Entwicklung eines Verfahrens zur Betrugserkennung in Finanzdaten ist die Un-
terscheidung zweier Arten von Betrug wichtig:
· Betrugsserie
Bei einer Betrugsserie führt eine Person mehrmals im Zeitablauf eine betrügerische
Änderung von Daten zu Lasten eines Betroffenen durch. Die Betrugsserie kann
durchaus aus einer Mischung von manipulierten und korrekten Daten bestehen.
Es kann in diesem Fall zwischen in sich korrelierten Daten, wie z.B. Steuererklä-
rungen oder Tagesendbestände eines Lagers, und unkorrelierten Daten, wie z.B.
Tageseinnahmen, unterschieden werden. Im ersten Fall bieten sich insbesondere
Methoden der Zeitreihenanalyse an.
· Einzelbetrug
Beim Einzelbetrug werden lediglich einmalig Daten gefälscht, damit ist dieser Be-
trug mit mathematisch-statistischen Methoden zumeist nicht oder nur schwer zu
identifizieren.
2
Vgl. [Brockhaus, 1991].
2

Begriffsdefinitionen
Auch die Datenquellen können unterschiedlich aufgebaut sein:
· Einzeldaten
Hierunter soll eine einzelne Zahl verstanden werden, wie beispielsweise der Betrag
einer Kontenbewegung. Offensichtlich sind statistische Analysen in diesem Fall zu-
meist nicht anwendbar.
· Zahlenwerk
Hierbei handelt es sich um die gleichzeitige Angabe von mehreren Zahlen, wie dies
bei Steuererklärungen oder Bilanzen der Fall ist.
Diese Zahlen sind üblicherweise nicht unabhängig voneinander, so dass hier Ana-
lysen der Korrelationsstruktur weitere Erkenntnisse bringen können.
Außerdem gibt es in vielen Zahlenwerken bestimmte Eintragungen, welche grund-
sätzlich zwar gefälscht, deren Richtigkeit aber sehr leicht überprüft werden kann,
so dass ein Falscheintrag nicht zu erwarten ist. Ein Beispiel wäre bei der Steuerer-
klärung die Eintragung des Arbeitslohns von der Lohnsteuerkarte.
In der Abbildung 1.1 sind diese Klassifikationen mit den Erfolgsaussichten für die Entde-
ckung von fehlerhaften Daten im Überblick dargestellt.
Betrugsserie
mit Zusammenhang
ohne Zusammenhang
Einzelbetrug
Einzeldatum
+
- -
Zahlenwerk
++
+
-
Abbildung 1.1: Taxonomie des Betrugs: Erfolgsaussichten der Betrugserkennung mit
statistischen Methoden
Die Chance der Aufdeckung von einzelnen Betrugsfällen bei Einzeldaten ist äußerst ge-
ring, während offensichtlich die Überprüfung von Zahlenwerken bei einer Betrugsserie
sehr aussichtsreich ist.
Zu erklären ist allerdings der Unterschied zwischen dem recht gut auffindbaren Serienbe-
trug bei Einzeldaten und dem schlechter entdeckbaren Einzelbetrug in einem Zahlenwerk.
Offensichtlich wird bei der Prüfung einer Menge von Einzeldaten unter der Hypothese der
Betrugsserie nicht interessieren, welche der Zahlen in der Menge im Endeffekt wirklich
künstlich sind, sondern nur, ob es solche Zahlen in größerer Menge gibt. Anschließend
wird man eine genauere Prüfung durchführen.
Demgegenüber ist bei einem einmalig begangenem Betrug in einem Zahlenwerk in den
meisten Fällen eine geringere Menge an Daten verfügbar, so dass hier die Aufdeckung
von Unregelmäßigkeiten schwieriger ist.
3

Begriffsdefinitionen
In dieser Arbeit wird der Fokus auf den durch Fälschung eines Einzeldatums begangenen
Einzelbetrug gesetzt. Die beschriebenen Verfahren sind allerdings grundsätzlich auch bei
Betrugsserien ohne inneren Zusammenhang der Daten anwendbar.
1.2 Betrugserkennung
Die Betrugserkennung mit Hilfe statistischer Methoden basiert auf folgender Idee:
Der gesamte Datensatz setzt sich aus Zahlen zweier Quellen zusammen: den unverfälsch-
ten und den verfälschten Daten.
Geht man nun davon aus, dass die Daten beider Bestandteile Realisierungen unterschied-
licher Verteilungen darstellen, erkennt man, dass es sich bei der Gesamtdatenmenge um
eine Mischung zweier Verteilungen handelt (vgl. Abbildung 1.2).
unverfälscht
d
d
d
verfälscht
©
'
E
Daten
Abbildung 1.2: Finanzdaten als Mischung von verfälschten und unverfälschten Daten
Grundsätzlich benötigt man also lediglich ein Verfahren, mit dem sich die Mischung wie-
der aufspalten lässt. Die Komplexität dieser Aufgabe erkennt man unter anderem daran,
dass es bis heute kein universelles, verlässliches Verfahren zur Betrugserkennung gibt.
3
Es wird bei jedem Verfahren unterstellt, dass sich die Verteilung der unverfälschten Da-
ten signifikant von der Verteilung der gefälschten Daten unterscheidet. Als eine mögli-
che Begründung dafür wird die aus der Psychologie bekannte Unfähigkeit des Menschen
zur Generierung zufälliger Zahlen genannt. Hill hat empirisch nachgewiesen, dass die
Verteilung der ersten Ziffern von Menschen generierter Zufallszahlen entscheidend von
Benford's-Law abweichen
4
.
5
Es ist im Allgemeinen davon auszugehen, dass die gefälschten Daten daher einer anderen
Verteilung folgen als die Unverfälschten; dabei könnte es eine vollkommen andere Vertei-
lungsfamilie sein, zumindest aber ein anderer Erwartungswert, da die Personen schließ-
lich eine Änderung der Daten zu ihren Gunsten bezwecken.
3
Ansätze zur Betrugserkennung werden überblicksartig in [Bolton und Hand, 2002] gegeben.
4
Obwohl eine leichte Tendenz von der (gewünschten) Gleichverteilung zu Benford's-Law beobachtet wer-
den konnte.
5
Vgl. [Hill, 1988].
4

Begriffsdefinitionen
Um verfälschte von unverfälschten Daten unterscheiden zu können, scheint die Kenntnis
von zumindest einer der beiden ,,reinen" Verteilungen notwendig zu sein. Empirisch ist
es allerdings nicht möglich, eine der beiden Verteilungen zu bestimmen, denn sortiert
man nach herkömmlicher Methode (mit menschlichem Expertenwissen und langwierigen
Untersuchungen) die eindeutig betrügerischen Zahlen heraus, so verbleibt eine gewisse
Dunkelziffer in den dann als ,,korrekt" deklarierten Zahlen zurück. Die heraus sortierten
Zahlen sind zwar fehlerbehaftet aber unvollständig in dem Sinne, dass fehlerhafte Daten
fälschlicherweise zu den ,,Korrekten" sortiert wurden. Damit wäre die auf diese Weise
generierte Verteilung der gefälschten Daten aus theoretischer Sicht nicht korrekt.
Abgesehen von diesem Problem ist aus statistischer Sicht ein Betrüger im System um so
leichter zu entdecken, je mehr Daten er verändert hat. Dies kann bei einzelnen Zahlen
(einzelne Beträge, ...) nur durch wiederholte Tätigkeit geschehen und bei Zahlenwerken
(Steuererklärung ... ) nur durch gleichzeitiges Verändern von Zahlen.
Folgende Anforderungen wird man an ein Verfahren zur Betrugserkennung stellen:
· Es sollte invariant gegenüber der gewählten Basis sein, da diese lediglich eine Kon-
vention der Zahlendarstellung ist.
· Es sollte invariant gegenüber der gewählten Skaleneinteilung sein, da die Unter-
scheidung von ,,Betrug" und ,,Nichtbetrug" nicht durch die Darstellung in verschie-
denen Währungen beeinflusst werden sollte.
Neben der betrügerischen Absicht können Fehler in Daten auch rein zufällig durch Un-
achtsamkeit, Messungenauigkeiten und anderen zufallsabhängigen Ursachen entstehen.
Im Gegensatz zu den bewusst durchgeführten Änderungen am Datenmaterial werden die-
se Veränderungen jedoch keine zielgerichtete Tendenz aufweisen, betragen damit in der
Erwartung der Abweichung null. Dieser Umstand erschwert die Identifizierung derartiger
Fehler.
1.3 Digitalanalyse
Offensichtlich sind bei einem derartigen Vorgehen riesige Datenmengen zu untersuchen
und eine geeignete Verdichtung der Daten ist erforderlich. Die Idee, lediglich einzelne
Ziffern zur Analyse der Daten zu nutzen, wird unter anderem von Nigrini genutzt.
6
Unter der Digitalanalyse soll die Analyse der signifikanten Ziffern einer Zahl verstanden
werden. Dabei werden diese folgendermaßen definiert:
7
6
vgl. u.a. [Nigrini, 1996], [Nigrini, 1997] und [Nigrini und Mittermaier, 1997].
7
In Anlehnung an [Drton, 1998] S. 12.
5

Begriffsdefinitionen
Definition 1.1 (signifikante Ziffern)
Für x (0,), b N\{1} heißt die eindeutig bestimmte Zahl M
b
(x) [1,b), für die gilt:
p Z : x = M
b
(x) · b
p
,
die Mantisse von x (zur Basis b).
Die n-te Ziffer der Darstellung von M
b
(x), symbolisiert durch D
(n)
b
(x), wird n-te signifi-
kante Ziffer von x genannt. Die Funktionen
D
(1)
b
: R
+
{1, . . . , b}, x D
(1)
b
(x)
D
(n)
b
: R
+
{0, . . . , b}, x D
(n)
b
(x), n 2
heißen Signifikante-Ziffer-Funktionen.
Um darauf basierend sinnvolle Wahrscheinlichkeitsverteilungen definieren zu können, ist
noch zu festzuhalten:
Definition 1.2 (Mantissen--Algebra)
Die von der Signifikante-Ziffer-Funktion erzeugte -Algebra
M
b
:= D
(i)
b
, i N :=
iN
D
(i)
b
-1
({0, . . . , b})
wird Mantissen--Algebra genannt.
Im Rahmen dieser Arbeit wird als Basis zumeist die Zahl 10 verwendet werden, so dass
die erste signifikante Ziffer gleich der ersten zählenden
8
Ziffer einer Zahl ist, die Zweite
gleich der zweiten Ziffer, und so fort. Diese Wahl beruht auf der weiten Verbreitung der
Basis 10 in der Gesellschaft und es ist zu erwarten, dass Veränderungen der Ziffern auch
auf dieser Basis durchgeführt werden.
Die Eignung dieser Statistik leitet sich bei der Verwendung von Benford's Law (vgl. Ka-
pitel 2.2) direkt aus dessen Grundidee ab. Doch losgelöst von Verteilungsannahmen über
die signifikanten Ziffern sprechen folgende Punkte für eine Verwendung dieser Statistik:
· Ein Betrug in der ersten Ziffer bringt dem Fälscher den höchsten Gewinn in Relati-
on zur Anzahl veränderter Zahlen.
· Die Vergleichbarkeit von Zahlen ist häufig auf Grund von Skaleneffekten nicht ge-
geben. Die einzelnen Ziffern sind in natürlicher Weise skaleninvariant gegenüber
dem Faktor b, wobei b die Basis des zugrunde liegenden Zahlensystems beschreibt.
8
Unter einer ,,zählenden" Ziffer sind alle Ziffern außer der Null zu verstehen.
6

Begriffsdefinitionen
1.4 Ansätze der Digitalanalyse
Die in Abbildung 1.2 veranschaulichte Mischung kann unter Benutzung der Digitalana-
lyse auf zwei grundsätzliche Arten aufgespalten werden:
Als erstes können rein statistische Verfahren, basierend auf Schätzer und Tests, verwen-
det werden. Dabei werden die Verteilungen der Mischungskomponenten vorgegeben bzw.
geschätzt und anschließend aufgetrennt.
In der Literatur wird eine auf Benford's-Law und Anpassungstests basierte Vorgehens-
weise vorgeschlagen
9
und auch auf allgemeinere Verteilungen der ersten signifikanten
Ziffern erweitert
10
. Diese Ansätze werden im Kapitel 2.4 vorgestellt.
Ein sehr naheliegender Ansatz beruht auf Partitionierungsverfahren (Clusterverfahren).
Dieser wird in Kapitel 4 erläutert.
Ebenfalls denkbar ist auch ein Ansatz mit Mischungsmodellen unter der Verwendung des
Expectation-Maximization-Algorithmus (EM-Algorithmus), welche in Kapitel 5 vorge-
stellt werden.
Zur Einteilung der Zahlen in die beiden Gruppen ,,korrekt" und ,,manipuliert" könnte in
diesem Zusammenhang insbesondere ein stochastisches Partitionierungsverfahren einge-
setzt werden.
9
Vgl. [Nigrini und Mittermaier, 1997].
10
Vgl. [Rodrigues, 2003].
7

2 Digitalanalyse mit Hilfe von
Erste-Ziffer-Gesetzen
2.1 Grundidee
Geht man davon aus, dass die Daten, welche zu analysieren sind, aus unverfälschten und
verfälschten Daten bestehen, so kann man vermuten, dass diese aus unterschiedlichen Ver-
teilungen stammen. Wäre eine dieser Verteilungen bekannt, so könnte man relativ leicht
die andere aus den Daten und der bekannten Verteilung erschließen und eine Aufteilung
der Stichprobe vornehmen.
unverfälscht
(Erste-Ziffer-Gesetz)
d
d
d
verfälscht
(unbekannt)
©
'
E
Daten
Abbildung 2.1: Finanzdaten als Mischung von verfälschten und unverfälschten (nach ei-
nem Erste-Ziffer-Gesetz verteilten) Daten
Es erscheint allerdings unsinnig, eine Verteilung für den ,,Betrug" zu gewinnen, da die-
ser von mehreren Personen unabhängig durchgeführt wird und daher ein gemeinsames
Muster unwahrscheinlich ist. Die Natur an sich für die ,,korrekten" Daten zu modellieren
erscheint dagegen einfacher. In der Abbildung 2.1 wird die Vorgehensweise bei der Digi-
talanalyse mit Hilfe von Erste-Ziffer-Gesetzen veranschaulicht.
Geht man davon aus, dass die Natur bei der Verwendung der Zahlen einer bestimmten
Verteilung folgt, so stellt sich die Frage, wie eine solche Verteilung aussehen könnte. In
den folgenden Kapiteln werden daher Möglichkeiten für eine solche Modellierung vorge-
stellt.
8

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
2.2 Benford's-Law als erster Ansatz zur
Betrugserkennung
2.2.1 Definition und spezielle Eigenschaften
Eine Möglichkeit der Verteilung der ersten Ziffern stellt Benford's-Law dar:
11
P (erste signifik. Ziffer = d) = log
b
(1 + d
-1
)
d = 1, ..., b - 1
P (zweite signifik. Ziffer = d) =
b-1
i=1
log
b
(1 + (i · 10 + d)
-1
) d = 0, 1, ..., b - 1
Es ergeben sich somit für das Zehnersystem die in der Tabelle 2.1 dargestellten Häufig-
keiten für die ersten Ziffern.
Position in der Zahl
Ziffer
Erste
Zweite
Dritte
Vierte
0
0,1197
0,1018
0,1002
1
0,3010
0,1139
0,1014
0,1001
2
0,1761
0,1088
0,1010
0,1001
3
0,1249
0,1043
0,1006
0,1000
4
0,0969
0,1003
0,1002
0,1000
Position in der Zahl
Ziffer
Erste
Zweite
Dritte
Vierte
5
0,0792
0,0967
0,0998
0,1000
6
0,0669
0,0934
0,0994
0,0999
7
0,0580
0,0904
0,0990
0,0999
8
0,0512
0,0876
0,0986
0,0999
9
0,0458
0,0850
0,0983
0,0998
Tabelle 2.1: Häufigkeiten der ersten vier Ziffern nach Benford's-Law
Die Verteilung der ersten Ziffer einer beliebigen Zahl im Zehnersystem ist in der Abbil-
dung 2.2 dargestellt.
Dieses Gesetz kann von der diskreten Betrachtung zu einer stetigen verallgemeinert wer-
den:
12
f
b
(t) =
1
t ln b
t [1, b),
(2.1)
wobei t über die Mantissenfunktion aus der Zahl gewonnen wird. Dieses ist in der Abbil-
dung 2.3 dargestellt.
11
Vgl. [Benford, 1938] S. 554.
12
Vgl. [Drton, 1998] S. 27.
9

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
T
0,0
0,1
0,2
0,3
0,05
0,15
0,25
1
2
3
4
5
6
7
8
9
Abbildung 2.2: Verteilung der Häufigkeiten der ersten Ziffern einer Zahl im Zehnersys-
tem nach Benford's-Law
E
T
0
1
2
3
4
5
6
7
8
9
10
0,0
0,1
0,2
0,3
0,4
0,5
Abbildung 2.3: Stetige Dichte nach Benford's-Law
Spezielle Eigenschaften von Benford's-Law
Die charakteristische Funktion zu Definition 2.1 ist folgendermaßen zu berechnen:
(t) :=
b
1
e
itx
1
x ln b
dx
=
b
1
cos(tx)
1
x ln b
dx + i
b
1
sin(tx)
1
x ln b
dx
(2.2)
Leider sind für die Integrale
sin x
x
dx und
sin x
x
dx keine geschlossenen Stammfunktio-
nen bekannt, so dass hier auch keine geschlossene Form für die charakteristische Funktion
angegeben werden kann.
Neben den in 2.4.2 behandelten Eigenschaften von Benford's-Law als Spezialfall eines
allgemeinen Power-Laws hinsichtlich Verteilungsfunktion und Momenten, gelten die spe-
ziellen Eigenschaften Skaleninvarianz, Basisinvarianz und Summeninvarianz.
10

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
Dabei wird unter der Skaleninvarianz folgendes verstanden:
13
Definition 2.1 (Skaleninvarianz)
Ein Wahrscheinlichkeitsmaß P auf (R, M
b
) heißt skaleninvariant, falls
> 0, S
M
b
: P (S) = P (S).
Und unter Basisinvarianz wird in diesem Zusammenhang verstanden:
14
Definition 2.2 (Basisinvarianz)
Ein Wahrscheinlichkeitsmaß P auf (R, M
b
) heißt basisinvariant, falls
m N, S M
b
: P (S
1/m
) = P (S).
Bemerkung 2.3
Diese Definition von Basisinvarianz entspricht nicht ganz der Üblichen, denn normaler-
weise würde man erwarten, dass die Basisinvarianz gegenüber jeder Basis und nicht nur
bei durch Potenzen verbundene Basen gilt.
Zuletzt der etwas ungewöhnliche Begriff der Summeninvarianz:
15
Definition 2.4 (Summeninvarianz)
Ein Wahrscheinlichkeitsmaß P auf (R, M
b
) heißt basisinvariant, falls
k N c(k) R z
1
{1, . . . , 9}, z
2
, . . . , z
k
{0, . . . , 9} :
E M (x) · 1
{D
1
=z
1
,...,D
k
=z
k
}
(x) =
R
+
M (x) · 1
{D
1
=z
1
,...,D
k
=z
k
}
(x) dP (x) = c(k).
Bemerkung 2.5
Anschaulich lässt sich die Summeninvarianz folgendermaßen beschreiben:
Nimmt man die Zahlen eines kleinen Ausschnitts und addiert diese mit ihren Wahrschein-
lichkeiten gewichtet auf, so erhält man für jeden gleich großen Teilintervall des Intervall
[1, b) denselben Wert.
Insgesamt ergibt sich folgendes Implikationsschema:
Skaleninvarianz
Benford's-Law
Summeninvarianz
Basisinvarianz
13
Vgl. [Hill, 1995a] S. 892.
14
Vgl. [Hill, 1995a] S. 891.
15
Vgl. [Allaart, 1995] S. 4.
11

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
Insbesondere die direkt ,,eingebaute", charakterisierende Skaleninvarianz lässt Benford's-
Law als Idealverteilung geeignet erscheinen, da so unabhängig von der Skalierung (Wäh-
rung, o.a.) eine Untersuchung vorgenommen werden kann.
Nigrini geht davon aus, dass diese Verteilung unter bestimmten Voraussetzungen an die
Datenquelle für alle natürlich vorkommenden Datensammlungen gilt und somit als Ideal-
verteilung genutzt werden kann.
2.2.2 Betrugsanalyse mit Benford's-Law
2.2.2.1 Anwendungsvoraussetzungen
Nigrini stellt folgende Bedingungen an die Datenquelle:
16
1. Die Zahlen sollten dieselbe Tatsache beschreiben: Beispielsweise ,,Höhe des Ein-
kommens" oder ,,Höhe der Kosten".
2. Es sollte in den Daten keine eingebaute Grenze nach oben oder unten geben mit
Ausnahme der Untergrenze 0.
3. Es sollten keine künstlich generierten und zugewiesenen Zahlen sein, wie beispiels-
weise Telefonnummern oder Ähnliches.
Implizit wird auch die Verwendung der Basis b = 10 unterstellt.
Die drei Punkte stellen lediglich grobe Voraussetzungen dar. Zusätzlich ist ein statisti-
scher Test erforderlich, welcher die Vermutungen bestätigen könnte.
Somit erfolgt die eigentliche Überprüfung auf Konformität mit Hilfe der mittleren abso-
luten Abweichung (MAD - mean absolute deviation), berechnet nach der Formel
17
M AD =
1
9
9
i=1
|h
i
- p
i
|,
(2.3)
(für die ersten signifikanten Ziffern) durchgeführt.
18
Bei ,,großen" Werten des MAD wird
die Nullhypothese ,,Benford's-Law" verworfen. Dabei wird die genaue Spezifizierung von
,,groß" dem Prüfer überlassen.
Eine etwas bessere Überprüfung wird durch die im Vorgehensmodell von Nigrini inte-
grierten zwei Plausibilitätstest geleistet, welche im folgenden Kapitel vorgestellt werden.
Weitere Möglichkeiten werden in Kapitel 2.2.5 erläutert.
16
Vgl. [Nigrini, 1997] S. 15-16.
17
Vgl. [Nigrini und Mittermaier, 1997] S. 59.
18
Diese Statistik kann auch für die anderen Ziffern oder Zifferkombinationen mit entsprechenden Modifi-
kationen verwendet werden.
12

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
2.2.2.2 Vorgehensmodell
Unter der Voraussetzung, dass die natürlich generierten Zahlen Benford's-Law folgen und
die Datenmenge ausreichend groß ist, kann Schema 2.1 verwendet werden. Dabei wird
als Erste-Ziffer-Gesetz Benford's-Law verwendet. Die Analyse erfolgt anschließend über
die nun folgenden Tests.
19
Konformitäts-Tests
Diese ersten beiden Tests dienen allein zur Überprüfung der Konformität der Daten mit
Benford's-Law und werden später nicht mehr verwendet.
· First-digit-Test
Der Test für die Konformität der ersten Ziffer mit Benford's-Law wird lediglich als
Plausibilitätstest eingesetzt, da er ansonsten eine zu großen Menge an zu prüfenden
Daten ergeben würde. Der Test basiert auf der Z-Statistik:
20
Z
i
=
|h
i
- p
i
| - (
1
2n
)
p
i
·(1-p
i
)
n
,
(2.4)
wobei p
i
die Wahrscheinlichkeit des Auftretens der i-ten Ziffer nach Benford's-Law
beschreibt und h
i
entsprechend die in der Stichprobe enthaltene relative Häufigkeit.
Der Korrekturterm
1
2n
wird nur verwendet, wenn er kleiner als der Term |h
i
- p
i
|
ist.
Diese Statistik ist standardnormalverteilt; übersteigt somit der Wert dieser Statis-
tik den Wert 1,96, so ist auf dem Signifikanzniveau 0,05 die Nullhypothese ,,Die
Stichprobe entstammt einer nach Benford verteilten Grundgesamtheit" abzulehnen.
· Second-digit Test
Auch dieser Test ist ein Plausibilitätstest. Er basiert ebenfalls auf der Z-Statistik,
gebildet für die zweite signifikante Ziffer.
Auswahl-Tests
Die folgenden Tests dienen der Zusammenstellung der Prüfauswahl.
· First-two-digits-Test
Bei diesem Test werden die ersten beiden Ziffern in Kombination verwendet; es
19
Vgl. [Nigrini und Mittermaier, 1997] S. 57-64.
20
Vgl. [Nigrini, 1997] S. 30.
13

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
werden also die ersten beiden Ziffern (im Bereich zwischen 10 und 99) bestimmt
und wiederum die Z-Statistiken gebildet. Dieser und die beiden folgenden Tests
werden genutzt, um auffällige Daten zu identifizieren und eine weitere Prüfung zu
empfehlen.
· First-three-digits-Test
Analog zum First-two-digits-Test, angewendet für den Bereich 100-999 für die ers-
ten drei Ziffern, werden die Z-Statistiken bestimmt und zur Bildung der Prüfaus-
wahl genutzt.
· Last-two-digits-Test
Dieser Test soll gerundete bzw. erfundene Zahlen finden und ist damit gut geeig-
net, um die eigentliche Verdachtsmenge zu bestimmen. Die beiden letzten Ziffern
beschreiben den Zahlenbereich [00;99] und sollten über diesen gleichverteilt sein.
Als Teststatistik wird wiederum die Z-Statistik verwendet.
Analyse-Tests
Diese Tests stellen Alternativen zu den Auswahl-Tests dar.
Die Analyse-Tests sind:
21
· Number-Dublication
Für diesen Test wird die Datensammlung durchlaufen und die Häufigkeit jeder Zahl
festgehalten. Dabei interessieren allerdings nur die Zahlen, die häufiger als einmal
in der Datensammlung vorhanden sind.
Diese werden dann nach ihrer Häufigkeit (und als zweites Kriterium: Wert) sortiert
aufgelistet. Nun wird der ,,Number-frequency-factor" (NFF) genutzt, um signifi-
kante Abweichungen zu finden:
N F F = 1 -
c
2
1
n
2
,
(2.5)
wobei n die Größe der Stichprobe und c
1
die absolute Häufigkeit einer bestimmten
Zahl beschreibt. Offensichtlich tendiert der Wert des NFF gegen 1, falls Zahlen
nicht mehrfach auftreten.
· Rounded-Numbers
Bei diesem Test werden (wie im vorangegangenen Test) Zahlen gezählt, welche das
ganzzahlige Vielfache von 10, 25, 100 und 1000 darstellen. Dabei werden die Tests
auf 10 und 25 wiederum nur für die Sinnhaftigkeit dieses Tests verwendet und die
21
Vgl. [Nigrini und Mittermaier, 1997] S. 61-64.
14

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
eigentliche Auswahl der zu prüfenden Zahlen über die Prüfung der Vielfachen von
100 und 1000 vorgenommen, da auch diese wiederum ausreichend kleine Stichpro-
ben liefern. Auch hier wird dann wieder die Z-Statistik eingesetzt, um signifikante
Abweichungen von den erwarteten Wahrscheinlichkeiten aus der Tabelle 2.2 zu be-
stimmen.
Offensichtlich stellt der Rounded-Numbers-Test eine Alternative zum Last-two-digits-
Test und der Number-Dublication Test eine Alternative zum First-two-digits- bzw. First-
three-digits-Test dar.
Vielfaches von
10
25
100
1000
Erwartete WS
0,10
0,04
0,01
0,001
Tabelle 2.2: Erwartete Wahrscheinlichkeiten für den Rounded-Numbers-Test
Leider gibt es keinen einzelnen Test, der mit einer gewissen Sicherheit fehlerhafte von
korrekten Daten unterscheiden kann, bzw. eine Prüfmenge generieren kann.
22
Es sind
immer sämtliche Tests durchzuführen und es ist von dem Prüfer zu entscheiden,
1. ob das Verfahren angewendet werden kann
2. und welche Zahlen näher zu untersuchen sind.
Dazu sollten insbesondere Zahlen / Zahlengruppen näher untersucht werden, die in meh-
reren Tests auffällig sind.
2.2.3 Distortion-Factor-Model
Wenn nun mit Hilfe der im vorangegangenen Kapitel vorgestellten Tests eine fehlerhaf-
te Datenmenge identifiziert wurde, interessiert als nächstes die durchschnittliche Höhe
und Tendenz der Fehler. Für die Berechnung dieses durchschnittlichen Fehlers ist das
Distortion-Factor-Model entwickelt worden.
Seien im Folgenden x
1
, . . . , x
N
die Elemente einer Stichprobe der Mächtigkeit N .
Definition 2.6 (Collapsed-Numbers)
Die Abbildung
f
(coll,b)
: R
+
[b; b
2
)
x
b · x
b
log
b
(x)
bildet jede Zahl auf ihre Collpsed-Number in dem Zahlensystem zur Basis b ab.
22
Vgl. [Nigrini, 1997] S. 53-55.
15

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
Bemerkung 2.7
Betrachtet man ausschließlich das Zehnersystem (Basis b=10), so ist dieses ,,Zusammen-
falten" der Zahlen das einfache Verschieben des Dezimalpunktes hinter die ersten beiden
Ziffern.
Grundsätzlich soll der Distortion-Factor als eine Art Abweichung der Mittelwerte von-
einander betrachtet werden, dazu sind folgende Berechnungen notwendig:
Definition 2.8 (Actual-Mean)
Das arithmetische Mittel über die Collapsed-Numbers zur Basis b wird als Actual-Mean
(AM) bezeichnet, d.h.
AM
b
=
1
N
N
i=1
f
(coll,b)
(x
i
).
(2.6)
Zu diesem empirischen Wert, definiert Nigrini den folgenden Theoretischen:
23
Definition 2.9 (Expected-Mean)
Das Expected-Mean (EM) wird definiert durch
EM
b
=
b
2
- b
N · (b
1
N
- 1)
.
(2.7)
Bemerkung 2.10
Zu der Berechnung des Vergleichswertes EM lässt sich festhalten:
· Das Expected-Mean ist von der Stichprobengröße N abhängig und liegt um 39,08.
24
· Damit ist das Expected-Mean nicht identisch mit dem Erwartungswert von Benford's-
Law, welcher sich nach der Formel 2.29 berechnet und für b = 10 unabhängig von
N etwa den Wert 39,0865 annimmt.
Die Definition 2.9 ist eng an die Vorstellung einer Benford'schen Menge als geometrische
Folge angelehnt:
25
Sortiert man die Zahlen einer Stichprobe, welche Benford's-Law gehorcht, so erhält man
eine geometrische Folge mit der Grundform ar
n-1
. Der Mittelwert einer solchen Folge
ist offensichtlich von n abhängig.
Da die Zahlen rein zufällig aus dem halboffenen Intervall [10,100) gezogen werden, kann
ein auf diese Weise berechnetes erwartetes Mittel nicht korrekt sein, da innerhalb der
23
Vgl. [Nigrini, 1996] S. 88.
24
Vgl. [Nigrini, 1996] S. 76.
25
Vgl. [Nigrini, 1996] S. 75f.
16

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
Menge Zahlen auftauchen könnten, welche oberhalb des theoretisch berechneten Maxi-
mums der geometrischen Folge liegen. Damit muss der wahre Wert für das erwartete
Mittel (EM) oberhalb des mit Hilfe der Formel 2.7 berechneten liegen.
Mit Hilfe dieser Definitionen lässt sich der Distortion-Factor bestimmen:
Definition 2.11
Der Distortion-Factor ist definiert als
DF =
AM - EM
EM
.
(2.8)
Der Distortion-Factor beschreibt die prozentuale Abweichung des empirisch gewonnenen
Mittelwertes der Stichprobe vom erwarteten Mittelwert.
Die Aussagekraft dieses Wertes ist zu relativieren, da er die Abweichungen für die Ziffern
auf alle Zahlen verteilt und somit eine starke Abweichung bei wertmäßig kleinen Zah-
len einen großen DF-Wert erzeugen. In der Interpretation dieses Wertes besteht dann die
Gefahr, diese prozentuale Abweichung auf alle Zahlen umzulegen und so eine viel grö-
ßere Wertabweichung zu vermuten, als tatsächlich vorhanden ist. Von der anderen Seite
betrachtet können natürlich auch starke Änderungen an großen Zahlen auf diese Weise
,,verharmlost" werden.
2.2.4 Erklärungen für das Auftreten von Benford's-Law
Ein Schlüssel zum Verständnis von Benford's-Law wäre eine zufriedenstellende Erklä-
rung für das (Nicht-)Auftreten von Benford's-Law als Mantissenverteilung.
Scott und Fasli haben einige Erklärungsansätze zu Benford's-Law untersucht. Diese sind:
26
· Zufallszahlen aus zufälligen Verteilungen
27
Betrachtet wird folgendes Schema zur Generierung von Zufallszahlen:
Algorithmus 1
while (nicht genügend Zahlen generiert)
obere_Grenze = randint(1,absolute_Obergrenze)
output(randint(1, obere_Grenze))
wend
Die Mantissen dieser Zufallszahlen folgen allerdings nicht Benford's-Law.
28
26
Vgl. [Scott und Fasli, 2001].
27
Basierend auf [Benford, 1938] S. 560ff.
28
Vgl. [Scott und Fasli, 2001] S. 15.
17

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
· Unendliche Produkte von Zufallsvariablen
Insbesondere handelt es sich hierbei um die Beiträge von Adhikari und Sarkar.
29
Die Verteilung nach Benford's-Law kann u.a. als Grenzverteilung des Produkts von
stochastisch unabhängigen U[0, 1]-verteilten Zufallsvariablen betrachtet werden.
Weitere Möglichkeiten sind das unendliche Potenzieren einer U[0, 1]-verteilen Zu-
fallsvariable und auch das Produkt der Kehrwerte von stochastisch unabhängigen
U[0, 1]-verteilten Zufallsvariablen.
· Erklärung von Scott / Fasli auf Grund der Untersuchung der Lognormalverteilung
Jede Verteilung mit den Eigenschaften
30
1. nur positive Werte haben eine positive Wahrscheinlichkeit,
2. Unimodalität mit einem Modalwert größer als Null,
3. Rechtsschiefe, wobei der Median weniger als die Hälfte des Erwartungswert
beträgt,
besitzt eine nach Benford verteilte Mantisse.
Diese Behauptung gilt nach Simulationen für die Lognormalverteilung, ist aber we-
der allgemein noch für diesen Spezialfall bewiesen.
Weitere Erklärungsansätze sind:
· Zahlentheoretisch
Schon Benford hat folgende Erklärung gegeben:
31
Betrachtet man die Funktion
32
z
(x) :=
1
x - 1
x
1
1
D
1
=z
(t) dt
für z = 1, so ergibt sich der in der Abbildung 2.4 dargestellte Graph. Offensichtlich
schwankt der Wert für den relativen Anteil der Ziffer 1 zwischen etwa
1
9
und
5
9
. Jetzt
kann man den mittleren Anteil der Zahlen über
n+1
n
x
(10
t
) dt
(2.9)
29
Vgl. [Adhikari und Sarkar, 1968] und [Adhikari, 1969].
30
Vgl. [Scott und Fasli, 2001] S. 16.
31
Vgl. [Benford, 1938] S. 563-571.
32
Vgl. [Drton, 1998] S. 17.
18

Digitalanalyse mit Hilfe von Erste-Ziffer-Gesetzen
bestimmen. Mit n ergibt sich dann der Wert log(1 + z
-1
).
Benutzt man jedoch statt der Formel 2.9 die Formel
1
10
n+1
- 10
n
10
n+1
10
n
x
(t) dt
erhält man eine andere Verteilung der ersten Ziffern.
33
Sie ist in der Tabelle 2.3
dargestellt.
· Produkte von Zufallsvariablen
Erweitert werden die oben erwähnten Aussagen über Produkte von Zufallsvaria-
blen von Peter Schatte. Eine starke Konvergenz gilt für Produkte von stochastisch
unabhängigen Zufallsvariablen (X
i
) mit identischer Verteilung, wobei die log X
i
keine Verteilung auf einem Gitter rationaler Zahlen bilden dürfen. Weiterhin kann
eine schwache Konvergenz auch für Summen von stochastisch unabhängigen Zu-
fallsvariablen nachgewiesen werden, sofern diese Summenbildung dem schwachen
Gesetz der großen Zahlen genügt.
34
E
T
1
10
100
1000
10.000
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
Abbildung 2.4: Anteil
1
(x) der Zahlen mit der Anfangsziffer Eins unter den Zahlen
[1, x) auf der halblogarithmischen Skala
Ziffer
1
2
3
4
5
6
7
8
9
Wahrscheinlichkeit
0,241
0,183
0,145
0,117
0,095
0,076
0,060
0,047
0,034
Tabelle 2.3: Verteilung der ersten Ziffern nach Stigler's-Law (Quelle: [Raimi, 1976]
S. 522)
33
Vgl. [Stigler, 1945], aus: [Raimi, 1976] S. 526.
34
Vgl. [Schatte, 1988].
19

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2004
ISBN (eBook)
9783832487430
ISBN (Paperback)
9783838687438
DOI
10.3239/9783832487430
Dateigröße
741 KB
Sprache
Deutsch
Institution / Hochschule
Universität Münster – Wirtschaftswissenschaften, Wirtschaftsinformatik
Erscheinungsdatum
2005 (Mai)
Note
1,0
Schlagworte
benford mantissenverteilung power simulation
Zurück

Titel: Digitalanalyse als Ansatz zur Betrugserkennung in Finanzdaten
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
book preview page numper 26
126 Seiten
Cookie-Einstellungen