Mustererkennung mit Neokognitron und Anwendungen
©2011
Diplomarbeit
160 Seiten
Zusammenfassung
Inhaltsangabe:Einleitung:
Das menschliche Gehirn empfängt eine Fülle unterschiedlicher Reize über verschiedene Sinnesorgane. Ein bedeutendes Gebiet in diesem Zusammenhang ist die visuelle Wahrnehmung, die als ... Aufnahme und die zentrale Verarbeitung von visuellen Reizen ... definiert ist. Der Mensch ist in der Lage aus einer großen Menge visueller Reize bestimmte Signale innerhalb kürzester Zeit herauszufiltern und richtig zu interpretieren. Probleme ergeben sich allerdings bei der Portierung dieser Fähigkeit der natürlichen Mustererkennung auf Computersysteme durch die erheblichen Unterschiede hinsichtlich der Leistungsfähigkeit und der Architektur. Nach dem derzeitigen technischen Stand können Computer Daten um ein vielfaches schneller verarbeiten, als unser Gehirn, sind aber dennoch mit Aufgaben überfordert, die durch unser Gehirn in kürzester Zeit erfolgreich durchgeführt werden. Charakteristisch für das menschliche Gehirn, als komplexes biologisches Netzwerk, ist seine hochgradige parallele Signalverarbeitung. Dank seiner ca. 1012 Nervenzellen, die über ca. 1015 Verbindungen miteinander verknüpft sind, verarbeitet es Millionen von Reizen innerhalb weniger Millisekunden. Die serielle Datenverarbeitung auf einer Von-Neumann-Architektur ist damit nicht vergleichbar. Es existieren allerdings stark vereinfachte Modelle zur Nachahmung dieses komplexen biologischen natürlichen Nervensystems, die als künstliche neuronale Netze (KNN) bezeichnet werden. Auch im Bereich der Mustererkennung hat sich der Einsatz von KNN bewährt, wobei besonders das Neokognitron eine gute Nachahmung der natürlichen Mustererkennung im visuellen Bereich verspricht.
Der Fokus der vorliegenden Arbeit liegt auf der strukturellen und funktionalen Darstellung des Neokognitrons bei der Mustererkennung. Darüber hinaus werden Anwendungen vorgestellt, für die das Neokognitron implementiert wurde. Neben dem Neokognitron wird auch das Hopfield-Netz (HN) als klassisches KNN zur Mustererkennung erläutert. Entsprechend dieser Ausführungen wurde zusätzlich zur vorliegenden Arbeit ein E-Learning Modul (EM) für binäre HN prototypisch implementiert und wird in dieser Arbeit vorgestellt.
Die vorliegende Arbeit ist wie folgt aufgebaut:
Kapitel 2 gibt eine Einführung in die Mustererkennung, wobei zunächst eine Eingrenzung dieses Themengebietes für die vorliegende Arbeit erfolgt. Anschließend werden die Teilschritte eines allgemeinen Mustererkennungsprozesses erläutert. In diesen Prozess […]
Das menschliche Gehirn empfängt eine Fülle unterschiedlicher Reize über verschiedene Sinnesorgane. Ein bedeutendes Gebiet in diesem Zusammenhang ist die visuelle Wahrnehmung, die als ... Aufnahme und die zentrale Verarbeitung von visuellen Reizen ... definiert ist. Der Mensch ist in der Lage aus einer großen Menge visueller Reize bestimmte Signale innerhalb kürzester Zeit herauszufiltern und richtig zu interpretieren. Probleme ergeben sich allerdings bei der Portierung dieser Fähigkeit der natürlichen Mustererkennung auf Computersysteme durch die erheblichen Unterschiede hinsichtlich der Leistungsfähigkeit und der Architektur. Nach dem derzeitigen technischen Stand können Computer Daten um ein vielfaches schneller verarbeiten, als unser Gehirn, sind aber dennoch mit Aufgaben überfordert, die durch unser Gehirn in kürzester Zeit erfolgreich durchgeführt werden. Charakteristisch für das menschliche Gehirn, als komplexes biologisches Netzwerk, ist seine hochgradige parallele Signalverarbeitung. Dank seiner ca. 1012 Nervenzellen, die über ca. 1015 Verbindungen miteinander verknüpft sind, verarbeitet es Millionen von Reizen innerhalb weniger Millisekunden. Die serielle Datenverarbeitung auf einer Von-Neumann-Architektur ist damit nicht vergleichbar. Es existieren allerdings stark vereinfachte Modelle zur Nachahmung dieses komplexen biologischen natürlichen Nervensystems, die als künstliche neuronale Netze (KNN) bezeichnet werden. Auch im Bereich der Mustererkennung hat sich der Einsatz von KNN bewährt, wobei besonders das Neokognitron eine gute Nachahmung der natürlichen Mustererkennung im visuellen Bereich verspricht.
Der Fokus der vorliegenden Arbeit liegt auf der strukturellen und funktionalen Darstellung des Neokognitrons bei der Mustererkennung. Darüber hinaus werden Anwendungen vorgestellt, für die das Neokognitron implementiert wurde. Neben dem Neokognitron wird auch das Hopfield-Netz (HN) als klassisches KNN zur Mustererkennung erläutert. Entsprechend dieser Ausführungen wurde zusätzlich zur vorliegenden Arbeit ein E-Learning Modul (EM) für binäre HN prototypisch implementiert und wird in dieser Arbeit vorgestellt.
Die vorliegende Arbeit ist wie folgt aufgebaut:
Kapitel 2 gibt eine Einführung in die Mustererkennung, wobei zunächst eine Eingrenzung dieses Themengebietes für die vorliegende Arbeit erfolgt. Anschließend werden die Teilschritte eines allgemeinen Mustererkennungsprozesses erläutert. In diesen Prozess […]
Leseprobe
Inhaltsverzeichnis
Raoul Privenau
Mustererkennung mit Neokognitron und Anwendungen
ISBN: 978-3-8428-2036-4
Herstellung: Diplomica® Verlag GmbH, Hamburg, 2011
Zugl. Martin-Luther-Universität Halle-Wittenberg, Halle, Deutschland, Diplomarbeit, 2011
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.
verbliebene fehlerhafte Angaben und deren Folgen.
© Diplomica Verlag GmbH
http://www.diplomica.de, Hamburg 2011
Inhaltsverzeichnis
Abbildungsverzeichnis
V
Abkürzungsverzeichnis
VII
Tabellenverzeichnis
IX
1
Einleitung
1
1.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Ziele der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
Mustererkennung
5
2.1
Mustererkennungsprozess . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2
Wesentliche Mustererkennungsaufgaben . . . . . . . . . . . . . . . . .
8
2.3
Methoden der Mustererkennung . . . . . . . . . . . . . . . . . . . . . 10
3
Künstliche Neuronale Netze
13
3.1
Standardneuronenmodell . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2
Grundlegende Netzarchitekturen . . . . . . . . . . . . . . . . . . . . . 15
3.3
Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4
Einsatz im Bereich der Mustererkennung . . . . . . . . . . . . . . . . 17
4
Hopfield-Netz
19
4.1
Netzstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2
Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2.1
Rekursive Berechnung . . . . . . . . . . . . . . . . . . . . . . 21
4.2.2
Energiefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3
Musterspeicherung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4
Musterlöschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5
Verschiedene Netzkonfigurationen . . . . . . . . . . . . . . . . . . . . 24
4.6
Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5
Neokognitron
29
5.1
Grundlegende Netzstruktur
. . . . . . . . . . . . . . . . . . . . . . . 29
5.1.1
Eingabeschicht . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1.2
Stufensystem . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
I
5.1.3
Verbindungsstruktur . . . . . . . . . . . . . . . . . . . . . . . 31
5.2
Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3
S-Zellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3.1
Verbindungsstruktur . . . . . . . . . . . . . . . . . . . . . . . 34
5.3.2
Mathematische Beschreibung
. . . . . . . . . . . . . . . . . . 37
5.3.3
Merkmalsextraktion auf Basis der Ähnlichkeit . . . . . . . . . 39
5.3.4
Steuerung der Selektivität . . . . . . . . . . . . . . . . . . . . 40
5.4
C-Zellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.4.1
Verbindungsstruktur . . . . . . . . . . . . . . . . . . . . . . . 42
5.4.2
Mathematische Beschreibung
. . . . . . . . . . . . . . . . . . 43
5.4.3
Positionsinvarianz und Unschärfe . . . . . . . . . . . . . . . . 44
5.5
Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.5.1
Wahl der Netzgröße . . . . . . . . . . . . . . . . . . . . . . . . 46
5.5.2
Nicht-überwachtes Lernen . . . . . . . . . . . . . . . . . . . . 47
5.5.3
Überwachtes Lernen . . . . . . . . . . . . . . . . . . . . . . . 51
5.5.4
Vergleich der Lernverfahren . . . . . . . . . . . . . . . . . . . 52
5.6
Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.6.1
Integration in den Mustererkennungsprozess . . . . . . . . . . 53
5.6.2
Geeignete Muster . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.6.3
Erkennungsleistung und Störungsinvarianz . . . . . . . . . . . 54
5.6.4
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6
Erweiterungen des Neokognitrons
57
6.1
Erweitertes Neokognitron . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.1.1
Kontrastgewinnung . . . . . . . . . . . . . . . . . . . . . . . . 57
6.1.2
Hemmendes Umfeld von C-Zellen . . . . . . . . . . . . . . . . 58
6.1.3
Hybrider Lernprozess . . . . . . . . . . . . . . . . . . . . . . . 59
6.1.4
Weiterentwicklung . . . . . . . . . . . . . . . . . . . . . . . . 60
6.1.5
Computersimulation . . . . . . . . . . . . . . . . . . . . . . . 63
6.2
Selektive Aufmerksamkeitssteuerung und Autoassoziation . . . . . . . 64
6.2.1
Routenwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.2
Autoassoziation . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.3
Verstärkung der Aufmerksamkeit . . . . . . . . . . . . . . . . 67
6.2.4
Segmentierung
. . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2.5
Wechsel der Aufmerksamkeit . . . . . . . . . . . . . . . . . . . 67
6.2.6
Antwortkontrolle . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.3
Rotationsinvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
II
6.3.1
Version 1 Rotationsinvariantes Neokognitron . . . . . . . . . 69
6.3.2
Version 2 Hybrides Neokognitron entsprechend der mentalen
Rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4
Doppelte C-Zellen-Schicht . . . . . . . . . . . . . . . . . . . . . . . . 72
7
Anwendungen
75
7.1
Zeichenerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.1.1
Erkennung numerischer und alphanumerischer Zeichen . . . . 76
7.1.2
Weitere Anwendungen im Bereich der Zeichenerkennung . . . 78
7.2
Erkennung handgeschriebener Musiknoten . . . . . . . . . . . . . . . 79
7.3
Gesichtserkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.4
Automatische Zielerkennung . . . . . . . . . . . . . . . . . . . . . . . 85
7.5
Analyse von Echokardiogrammen . . . . . . . . . . . . . . . . . . . . 87
7.6
Erkennung von Draht-Modellen . . . . . . . . . . . . . . . . . . . . . 88
7.7
Suche struktureller Einheiten auf Mikrochips . . . . . . . . . . . . . . 89
7.8
Weitere Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8
E-Learning Modul für binäre Hopfield-Netze
93
8.1
Wahl der Software-Plattform und Entwicklungsumgebung . . . . . . . 94
8.2
Softwarearchitektur und allgemeine Modulverwendung
. . . . . . . . 95
8.3
Kritische Aspekte der Entwicklung . . . . . . . . . . . . . . . . . . . 97
8.3.1
Hopfield-Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.3.2
Benutzeroberfläche und Ablaufsteuerung . . . . . . . . . . . . 99
9
Resümee und Ausblick
101
Anhang
104
A Hopfield Netz
105
A.1 Gewichtsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2 Beispiel für eine Energiefunktion . . . . . . . . . . . . . . . . . . . . . 105
A.3 Beispiel zum Lernen der Schwellen
. . . . . . . . . . . . . . . . . . . 106
B Software zur Simulation eines Neokognitrons
107
B.1 Beholder 2.0b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
B.2 NeoCognitron 1.0.0 Beta . . . . . . . . . . . . . . . . . . . . . . . . . 112
C Muster bei der Erkennung alphanumerischer Zeichen
117
III
D CAPTCHA-Beispiele
123
E E-Learning Modul
125
E.1 Abbildung des zweidimensionalen Eingabebereiches auf ein eindimen-
sionales Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
E.2 Abbildung der zweidimensionalen Gewichtsmatrix auf ein eindimen-
sionales Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
E.3 Einsatz einer Datenbank zur Speicherung der Gewichtsmatrix . . . . 127
E.4 Ermittlung der maximalen Mustergröße in Abhängigkeit von der
Prozessorarchitektur . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Literaturverzeichnis
131
IV
Abbildungsverzeichnis
2.1
Mustererkennungsprozess . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.1
Vergleich biologisches und künstliches neuronales Netz . . . . . . . . . . 13
5.1
Grundlegende Netzstruktur eines dreistufigen Neokognitrons . . . . . . . 30
5.2
Unterscheidung direktes und indirektes rezeptives Feld . . . . . . . . . . 31
5.3
Beispiel für die Mustererkennung mit dem Neokognitron . . . . . . . . . 33
5.4
Verbindungsstruktur von S-Zellen der ersten S-Schicht . . . . . . . . . . 34
5.5
Verbindungsstruktur eines Stufenübergangs . . . . . . . . . . . . . . . . 36
5.6
Ein- und Ausgabecharakteristika einer S-Zelle . . . . . . . . . . . . . . . 37
5.7
Bewertung der Ähnlichkeit durch S-Zellen im mehrdimensionalen Merk-
malsraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.8
Verbindungsstruktur von C-Zellen
. . . . . . . . . . . . . . . . . . . . . 42
5.9
Ein- und Ausgabecharakteristika einer C-Zelle . . . . . . . . . . . . . . . 43
5.10 Positionsinvarianz und Unschärfe-Operation . . . . . . . . . . . . . . . . 44
5.11 Störungstoleranz einer C-Zelle in Abhängigkeit von der Größe ihres
rezeptiven Feldes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.12 Hypercolumns als Basis des Lernverfahrens . . . . . . . . . . . . . . . . 49
6.1
Kontrastgewinnungsschicht . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2
Funktionen des hemmenden Umfeldes von C-Zellen . . . . . . . . . . . . 59
6.3
Enthemmung von C-Zellen
. . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4
Grundlegende Netzstruktur mit integrierter selektiver Aufmerksamkeits-
steuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.5
Struktur einer Stufe mit selektiver Aufmerksamkeitssteuerung . . . . . . 66
6.6
Rotationsinvariantes Neokognitron (Version 1) . . . . . . . . . . . . . . . 69
6.7
Grundlegender Ablauf der Mustererkennung mit dem rotationsinvarianten
Neokognitron (Version 2) auf Basis der mentalen Rotation . . . . . . . . 71
6.8
Gleichmäßige und ungleichmäßige Unschärfe-Operation im Vergleich . . 73
7.1
Netzstruktur zur Gesichtserkennung und Segmentierung . . . . . . . . . 84
7.2
Drahtmodelle für das Training
. . . . . . . . . . . . . . . . . . . . . . . 88
8.1
Softwarearchitektur des E-Learning Moduls . . . . . . . . . . . . . . . . 95
8.2
Programmbildschirm des E-Learning Moduls
. . . . . . . . . . . . . . . 97
A.1 Beispiel für eine Energiefunktion . . . . . . . . . . . . . . . . . . . . . . 105
V
B.1
Beholder Konfiguration der Netzstruktur . . . . . . . . . . . . . . . . . 107
B.2
Beholder Konfiguration der Parameter . . . . . . . . . . . . . . . . . . 108
B.3
Beholder Mustermenge . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
B.4
Beholder Mustereditor . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
B.5
Beholder Aktivierungen der Rezeptorzellen bei angelegtem Muster . . 109
B.6
Beholder Programmfenster mit angelegtem gelerntem Muster . . . . . 110
B.7
Beholder Programmfenster mit angelegtem nicht gelerntem Muster . . 111
B.8
NeoCognitron Programmfenster mit trainiertem Neokognitron . . . . . 112
B.9
NeoCognitron Konfiguration der Netzstruktur . . . . . . . . . . . . . . 113
B.10 NeoCognitron Mustermenge . . . . . . . . . . . . . . . . . . . . . . . . 113
B.11 NeoCognitron Mustereditor . . . . . . . . . . . . . . . . . . . . . . . . 114
B.12 NeoCognitron Aktivierung von S-Zellen auf der zweiten S-Schicht bei
angelegtem Muster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
B.13 NeoCognitron Programmabsturz . . . . . . . . . . . . . . . . . . . . . 115
C.1
Trainingsmuster der ersten S-Schicht . . . . . . . . . . . . . . . . . . . . 117
C.2
Trainingsmuster der zweiten S-Schicht . . . . . . . . . . . . . . . . . . . 118
C.3
Trainingsmuster der dritten S-Schicht
. . . . . . . . . . . . . . . . . . . 119
C.4
Trainingsmuster der vierten S-Schicht . . . . . . . . . . . . . . . . . . . 120
C.5
Korrekt erkannte Muster bei der Mustererkennung . . . . . . . . . . . . 121
D.1 Registrierungsformular eines Google Mail Kontos (Ausschnitt) . . . . . . 123
D.2 Registrierungsformular zur Webanwendung ,,Delicious" (Ausschnitt) . . . 123
D.3 CAPTCHA-Erzeugung durch den freien CAPTCHA Webdienst ,,reCAPT-
CHA" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
D.4 CAPTCHA zur Objektidentifikation und manuellen Abgrenzung . . . . . 124
E.1
Abbildung der zweidimensionalen Mustereingabe auf ein eindimensionales
Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
E.2
Abbildung der zweidimensionalen Gewichtsmatrix auf ein eindimensio-
nales Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
E.3
Java-Code des Zugriffs auf das eindimensionale Feld der Gewichtsmatrix 126
VI
Abkürzungsverzeichnis
ALU
arithmetic logic unit
API
application programming interface
ATR
automatic target recognition
AWT
Abstract Window Toolkit
BNN
biologisches neuronales Netz
CAPTCHA
completely automated public turing test to tell computers and
humans apart
CMYK
Cyan, Magenta, Yellow und Key
CNN
convolutional neural network
CPU
central processing unit
CUDA
compute unified device architecture
DB
Datenbank
DBS
Datenbanksystem
EM
E-Learning Modul
GPU
graphics processing unit
GUI
graphical user interface
HC
Hypercolumn
HN
Hopfield-Netz
HRC
high resolution channel
HTML
hypertext markup language
ICBM
intercontinental ballistic missile
JAR
Java Archive
JDK
Java Development Kit
JFC
Java Foundation Classes
JRE
Java Runtime Environment
VII
JVM
Java Virtual Machine
KNN
künstliches neuronales Netz
LRC
low resolution channel
LSM
logarithmic spiral mapping
MRNN
multi-resolution neural network
NZ
Nervenzelle
OffZZ
Off-Zentrum-Zelle
OnZZ
On-Zentrum-Zelle
PA
Prozessorarchitektur
RAM
random access memory
RGB
Rot, Grün und Blau
SDI
Strategic Defense Initiative
UFSCar
Universidade Federal de São Carlos
VIII
Tabellenverzeichnis
4.1 Verschiedene Konfigurationen eines binären Hopfield-Netzes . . . . . . . . 25
5.1 Vergleich der Lernverfahren des Neokognitrons . . . . . . . . . . . . . . . 53
7.1 Vergleich der Netzstrukturen zur Erkennung handgeschriebener numeri-
scher und alphanumerischer Zeichen . . . . . . . . . . . . . . . . . . . . . 76
7.2 Netzstruktur zur Erkennung handgeschriebener Zahlen mit dem erweiterten
Neokognitron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.3 Vergleich der Erkennungsgeschwindigkeiten bei der Gesichtserkennung bzgl.
verschiedener Systemumgebungen . . . . . . . . . . . . . . . . . . . . . . . 83
7.4 Netzkonfiguration zur Erkennung der Drahtmodelle . . . . . . . . . . . . . 88
IX
1 Einleitung
1 Einleitung
1.1 Motivation
Das menschliche Gehirn empfängt eine Fülle unterschiedlicher Reize über verschiede-
ne Sinnesorgane. Ein bedeutendes Gebiet in diesem Zusammenhang ist die visuelle
Wahrnehmung
1
, die als ,,... Aufnahme und die zentrale Verarbeitung von visuellen
Reizen ..."
2
definiert ist. Der Mensch ist in der Lage aus einer großen Menge visueller
Reize bestimmte Signale innerhalb kürzester Zeit herauszufiltern und richtig zu
interpretieren. Probleme ergeben sich allerdings bei der Portierung dieser Fähig-
keit der natürlichen Mustererkennung auf Computersysteme durch die erheblichen
Unterschiede hinsichtlich der Leistungsfähigkeit und der Architektur. Nach dem
derzeitigen technischen Stand können Computer Daten um ein vielfaches schneller
verarbeiten, als unser Gehirn, sind aber dennoch mit Aufgaben überfordert, die durch
unser Gehirn in kürzester Zeit erfolgreich durchgeführt werden.
3
Charakteristisch
für das menschliche Gehirn, als komplexes biologisches Netzwerk, ist seine hoch-
gradige parallele Signalverarbeitung.
4
Dank seiner ca.
10
12
Nervenzellen
5
, die über
ca.
10
15
Verbindungen
6
miteinander verknüpft sind, verarbeitet es Millionen von
Reizen innerhalb weniger Millisekunden.
7
Die serielle Datenverarbeitung auf einer
Von-Neumann-Architektur ist damit nicht vergleichbar.
8
Es existieren allerdings stark
vereinfachte Modelle zur Nachahmung dieses komplexen biologischen natürlichen
Nervensystems, die als künstliche neuronale Netze (KNN) bezeichnet werden.
9
Auch
im Bereich der Mustererkennung hat sich der Einsatz von KNN bewährt, wobei
besonders das Neokognitron eine gute Nachahmung der natürlichen Mustererkennung
im visuellen Bereich verspricht.
10
1
Prozess der visuellen Wahrnehmung siehe [66], S. 162 ff. und [153], S. 345 ff.
2
[25], S. 173.
3
Vgl. [10], S. 1; [133], S. 13; [154], S. 13 und [57], S. 318.
4
Vgl. [154], S. 13.
5
Vgl. [97] und [172] S. 1.
6
Vgl. [97].
7
Vgl. [133], S. 13.
8
Vgl. [133], S. 13.
9
Vgl. [133], S. 13 und [12], S. 15.
10 Vgl. [12], S. 11 und [133], S. 14.
1
1 Einleitung
1.2 Ziele der Arbeit
Der Fokus der vorliegenden Arbeit liegt auf der strukturellen und funktionalen
Darstellung des Neokognitrons bei der Mustererkennung. Darüber hinaus werden
Anwendungen vorgestellt, für die das Neokognitron implementiert wurde. Neben
dem Neokognitron wird auch das Hopfield-Netz (HN) als klassisches KNN zur
Mustererkennung erläutert. Entsprechend dieser Ausführungen wurde zusätzlich
zur vorliegenden Arbeit ein E-Learning Modul (EM) für binäre HN prototypisch
implementiert und wird in dieser Arbeit vorgestellt.
1.3 Aufbau der Arbeit
Die vorliegende Arbeit ist wie folgt aufgebaut:
Kapitel 2 gibt eine Einführung in die Mustererkennung, wobei zunächst eine Eingren-
zung dieses Themengebietes für die vorliegende Arbeit erfolgt. Anschließend werden
die Teilschritte eines allgemeinen Mustererkennungsprozesses erläutert. In diesen
Prozess lassen sich verschiedene Mustererkennungsaufgaben integrieren, von denen
die wesentlichen Aufgaben vorgestellt werden. Den Abschluss bildet eine Motivation
des Einsatzes von KNN zur Mustererkennung.
Kapitel 3 vermittelt die notwendigen Grundlagen von KNN, die zum Verständnis
der folgenden Kapitel von Bedeutung sind. Darüber hinaus wird die Eignung von
KNN für den Mustererkennungsprozess aus Kapitel 2 begründet.
Kapitel 4 führt in die Theorie eines HN zur Mustererkennung ein und schließt mit
einer kritischen Bewertung des Einsatzes zur Mustererkennung.
Kapitel 5 thematisiert anschließend das Neokognitron zur Mustererkennung. Im
Vordergrund stehen dabei die Netzstruktur, die sich daraus ergebende Funktionsweise
bei der Mustererkennung sowie potentielle Lernverfahren. Abschließend erfolgt eine
Bewertung u.a. bzgl. des Einsatzes im Mustererkennungsprozess aus Kapitel 2 und
der Leistungsfähigkeit bei der Mustererkennung.
In Kapitel 6 werden verschiedene Erweiterungen des Neokognitrons vorgestellt, die
sich auf spezielle Problembereiche beziehen. Aufgrund deren hoher Komplexität
werden ausschließlich die wesentlichen Eigenschaften im Überblick dargestellt.
2
1 Einleitung
Kapitel 7 fokussiert Anwendungen aus verschiedenen Bereichen, in denen das Neoko-
gnitron zur Mustererkennung implementiert wurde. Die entsprechenden Implemen-
tierungen sollen die praktische Leistungsfähigkeit und das Anwendungsspektrum des
Neokognitrons verdeutlichen.
Kapitel 8 stellt das entwickelte EM für binäre HN vor, das die Möglichkeit zur
computergestützten Simulation von binären HN im Lehrbetrieb schafft, wodurch
deren Leistungsfähigkeit praktisch evaluiert werden kann. Das Kapitel zeigt dazu
ausgewählte Aspekte der Implementierung.
Kapitel 9 beinhaltet schließlich eine zusammenfassende Betrachtung der zentralen
Punkte der vorliegenden Arbeit und gibt einen Ausblick zum Neokognitron bzgl. der
Mustererkennung.
3
2 Mustererkennung
2 Mustererkennung
,,One of the most interesting aspects of the world is that it can be considered
to be made up of patterns. A pattern is essentially an arrangement. It is
characterized by the order of the elements of which it is made, rather than by
the intrinsic nature of these elements."
11
Norbert Wiener
Im Unterschied zur digitalen Datenverarbeitung, nehmen Menschen alle Informatio-
nen ihrer Umgebung als natürliche Muster wahr.
12
Zum Beispiel ist eine Telefonnum-
mer für einen Computer eine Reihe ganzer Zahlen
13
, wohingegen ein Mensch diese
als ein Muster wahrnimmt und entsprechend interpretiert.
14
Ausgangspunkt der vorliegenden Arbeit ist die natürliche visuelle Wahrnehmung
als Teilbereich der natürlichen Mustererkennung
15
, deren Funktion auf Basis der
Neuroanatomie des visuellen Systems realisiert wird. In diesem Kontext wird Muste-
rerkennung im weiten Sinne als maschineller Prozess zur Nachahmung natürlicher
visueller Wahrnehmungsleistungen verstanden.
16
Ein Muster ist dabei die quanti-
tative Beschreibung eines Objektes in Form eines statischen
17
, zweidimensionalen
Bildes, wobei ein Objekt u.a. ,,durch eine Vielzahl von physikalisch meßbaren Größen
charakterisiert"
18
ist.
19
Für die genaue Darstellung eines Objektes steht eine Menge
vieler verschiedener Beschreibungen zur Verfügung, die zusammen den Darstellungs-
raum bilden.
20
Insgesamt ist diese visuelle Mustererkennung eng mit der digitalen
Bildverarbeitung (digital image processing) und dem computergestützten Sehen
(computer vision) verknüpft, wobei diese Gebiete andere Ziele verfolgen.
21
11 Vgl. [53], S. 571.
12 In Anlehnung an [26], S. 1; [131], S. 4 und [152], S. 92, 97. Natürliche Muster sind bspw. Klänge,
Worte, Gesichter, Gegenstände, Bilder, Situationen (vgl. [57], S. 318 und [155], S. 75).
13 Maschinenlesbar kodiert.
14 Vgl. [183], S. 5.
15 Ein weiterer Teilbereich ist z.B. die auditive Wahrnehmung.
16 Vgl. [131], S. 4; [26], S. 1 und [183], S. 9. Man kann somit auch von visueller Mustererkennung
sprechen.
17 Dynamische Muster (temporal patterns) sind kein Bestandteil der Arbeit.
18 Vgl. [60], S. 205.
19 Vgl. [53], S. 574; [143], S. 12 und [60], S. 205. Daneben kann ein Muster die strukturelle
Beschreibung eines Objektes darstellen (vgl. [53], S. 574 und [143], S. 247 ff.). Allerdings ist
diese Sichtweise für die vorliegende Arbeit nicht von Bedeutung.
20 Vgl. [143], S. 13 und [156], S. 2. Bspw. kann ein Buchstabe durch verschiedenen Schriftarten, in
verschiedenen Stilen etc. repräsentiert werden (vgl. [156], S. 2 f.).
21 Vgl. [142], S. 236 und [11], S. 3. Während die digitale Bildverarbeitung auf Pixeldaten ohne
Hintergrundwissen operiert, beschäftigt sich das computergestützte Sehen mit der Mechanisie-
rung von Sehvorgängen der realen dreidimensionalen Welt. Allerdings verfolgen diese Gebiete
andere Ziele (vgl. [11], S. 3).
5
2 Mustererkennung
Vor diesem Hintergrund wird im ersten Abschnitt zunächst ein allgemeiner Muste-
rerkennungsprozess dargestellt. Dieser Prozess dient der Durchführung verschiedener
Mustererkennungsaufgaben, wobei die wesentlichen Aufgaben im zweiten Abschnitt
identifiziert werden. Abschließend motiviert der dritte Abschnitt den Einsatz von
KNN zur Implementierung dieser Aufgaben.
2.1 Mustererkennungsprozess
Der Mustererkennungsprozess wird als ein sequentieller Prozess nach Abb. 2.1 ange-
nommen, der sich an dem Ablauf der natürlichen visuellen Wahrnehmung orientiert.
Diese beinhaltet allgemein die Wahrnehmung und die Interpretation von Mustern
auf Basis zuvor wahrgenommener und gelernter Muster.
22
Das Ziel ist damit die
Zuordnung des Darstellungsraumes in einen Interpretationsraum, so dass maschinell
von der Beschreibung eines Objektes auf das Objekt geschlussfolgert wird.
23
Die
Durchführung dieses Prozesses bezieht sich jeweils auf einen begrenzten Anwendungs-
bereich und legt eine mit physikalischen Geräten messbare Umgebung zugrunde.
24
In diesem Prozess lassen sich die Lernphase und die Einsatzphase unterscheiden. Die
Lernphase basiert auf einer Stichprobe von Mustern des Anwendungsbereichs und
dient dem Aufbau einer Wissensbasis, auf die in der Einsatzphase zurückgegriffen
wird.
Abbildung 2.1: Mustererkennungsprozess
Umgebung
Muster-
erfassung
Vor-
verarbeitung
Merkmals-
gewinnung
Segmentierung
Muster-
erkennungs-
aufgabe
Nach-
bearbeitung
Arbeitsphase
Lernphase
Stichprobe
Lernen
Wissensbasis
Quelle: Eigene Darstellung nach [53], S. 572 ff.; [60], S. 13 ff.; [61], S. 9 ff.; [91], S. 5 f.; [104] S. 9 ff.
und [183].
22 Vgl. [26], S. 1.
23 Vgl. [143], S. 13 und [156], S. 2.
24 In Anlehnung an [104], S. 2 f.
6
2 Mustererkennung
Der erste Schritt ist die Mustererfassung, in der die Auswahl geeigneter Sensoren
nach bestimmten Kriterien und die eigentliche Aufnahme (sensoring) von Mustern
erfolgen. Bedeutend für die Sensorauswahl sind vor allem der Anwendungsbereich
und die benötigten Messgrößen.
25
Das Ergebnis der Aufnahme ist ein Muster in Form
physikalischer Messdaten, welches entsprechend weiterverarbeitet wird.
26
Die Vorverarbeitung (pre-processing) umfasst verschiedene Aufgaben, von denen die
Kodierung und Transformation die Kernaufgaben sind.
27
Unter Kodierung wird die
Digitalisierung der Sensordaten verstanden, wobei der Definitions-
28
und Wertebe-
reich
29
der erfassten Messwerte diskretisiert werden und dadurch ein digitales Muster
entsteht.
30
Dieses Muster wird in ein geeigneteres Muster transformiert, wobei u.a.
Fehlerkorrekturen durch Normalisierung
31
und Filterung
32
durchgeführt werden.
33
Die Aufgaben der Vorverarbeitung werden durch den Einsatz von Methoden der
digitalen Bildverarbeitung realisiert.
Segmentierung (segmentation) wird immer dann durchgeführt, wenn ein komplexes
Muster erfasst wurde, das aus mehreren Objekten besteht. Auf Basis deren spezifischer
Merkmale werden die einzelnen Objekte segmentiert und durchlaufen den Prozess
der Mustererkennung als eigenständige Muster weiter.
34
Die Merkmalsgewinnung (feature extraction) umfasst zunächst die Auswahl einer
Menge quantitativer Merkmale (features), die sich aus dem Muster ableiten lassen.
35
Dabei handelt es sich entweder um einzelne Messwerte oder eine Funktion
36
von
Messwerten. Die gewählten Merkmale sollten sich für die folgende Mustererken-
nungsaufgabe eignen, damit diese optimal durchgeführt werden kann.
37
Auf die
entsprechend ausgewählten Merkmale wird das Muster anschließend reduziert.
38
Das
25 Vgl. [60], S. 13, 205.
26 Vgl. [91], S. 5.
27 Vgl. [104], S. 26 ff. und [60], S. 14.
28 Durch Abtastung (sampling, vgl. [53], 31 ff.).
29 Durch Quantisierung (quantization, vgl. [53], 31 ff.).
30 Vgl. [104], S. 27.
31 Vgl. [104], S. 34. Bedeutet Korrektur von Schwankungen bestimmter Mustereigenschaften wie
z.B. verschiedene geometrische Eigenschaften und Lichtintensität (vgl. [53], S. 34 ff.).
32 Vgl. [104], S. 51 ff. Umfasst Operationen, die der Beseitigung oder Reduktion bestimmter
Störungen dienen (vgl. [53], S. 51 ff.).
33 Vgl. [60], S. 14 und [53], S. 26 ff.
34 Vgl. [60], S. 201; [104], S. 10, 74 und [61], S. 9 f.
35 Vgl. [151], S. 6; [11], S. 218; [53], S. 574; [156], S. 14 und [165], S. 229 ff. Darüber hinaus lassen
sich strukturelle Merkmale aus einem Muster ableiten, die allerdings für die vorliegende Arbeit
zu vernachlässigen sind (vgl. [53], S. 574).
36 Man spricht auch von abgeleiteten Merkmalen (vgl. [60], S. 169.
37 Vgl. [61], S. 11.
38 Vgl. [91], S. 5, 9, 10.
7
2 Mustererkennung
Ergebnis der Merkmalsgewinnung ist ein Merkmalsvektor (feature vector ), der das
Muster reduziert repräsentiert und sich maschinell verarbeiten lässt.
39
Der Kern des Mustererkennungsprozesses ist die Durchführung einer bestimmten
Mustererkennungsaufgabe für den gegebenen Merkmalsvektor.
40
Diese Eingabe wird
als Eingabemuster bezeichnet und die Ausgabe als Ausgabemuster. Die Charakteristik
des Ausgabemusters wird durch die eingesetzte Mustererkennungsaufgabe bestimmt.
41
Die Qualität des Ergebnisses der Mustererkennungsaufgabe ist abhängig von der
zuvor durchgeführten Merkmalsgewinnung, wodurch das Zusammenspiel zwischen
Merkmalsgewinnung und Mustererkennungsaufgabe von wesentlicher Bedeutung
ist.
42
In einigen Literaturquellen bezieht sich Mustererkennung ausschließlich auf
eine oder mehrere konkrete Mustererkennungsaufgaben.
43
Das Ergebnis der Mustererkennungsaufgabe kann in vielen Fällen nicht unverändert
zur Weiterverarbeitung übernommen werden. Aus diesem Grund erfolgt abschließend
eine adäquate Nachbearbeitung, nach der die maschinelle Interpretation des Musters
abgeschlossen ist.
44
2.2 Wesentliche Mustererkennungsaufgaben
Das Gehirn ist bzgl. der natürlichen visuellen Wahrnehmung in der Lage, verschiedene
Mustererkennungsaufgaben (pattern recognition tasks) durchzuführen, wobei sich
folgende wesentliche Aufgaben identifizieren lassen:
45
· Musterassoziation (pattern association)
· Musterklassifikation (pattern classification)
39 Vgl. [53], S. 574; [143], S. 12 f. und [131], S. 14.
40 Vgl. [143], S. 17.
41 Vgl. [183], S. 77.
42 Vgl. [61], S. 11 und [131], S. 9.
43 Bspw. wird in [67], S. 150 Mustererkennung im engeren Sinne als Aufgabe verstanden, ,,... ein
vorgegebenes Muster entweder zu klassifizieren (Problemtyp: Klassifizierung) oder aus einer
verrauschten Version das korrekte Muster zu rekonstruieren (Problemtyp: autoassoziativer
Speicher)". Hingegen definiert [165], S. 229 Mustererkennung als Klassifikation von Objekten.
44 Vgl. [143], S. 17.
45 Synthese aus [60], S. 6 ff., 77; [142], S. 50 ff. und [67], S. 150.
8
2 Mustererkennung
Die Musterassoziation orientiert sich u.a. an der Fähigkeit des Gehirns zur Autoas-
soziation.
46
Sie umfasst in der Lernphase die Speicherung von Mustern und in der
Einsatzphase den Abruf bzw. die Rekonstruktion
47
dieser Muster.
48
Die Musterklassifikation ordnet in der Einsatzphase die eingegebenen Muster gelern-
ten Musterklassen zu und liefert somit als Ergebnis deren Klassenzugehörigkeit.
49
Die
Lernphase kann zum einen als überwachte Klassifikation auf der Basis von bekannten
Musterklassen durch Musterpaare der Form (Trainingsmuster;Klassenzugehörigkeit)
erfolgen.
50
Dabei werden die impliziten Beziehungen zwischen den Mustern gleicher
Klassen als Klassenmerkmale erfasst.
51
Zum anderen können auch nur Eingabemuster
zur Verfügung stehen, so dass eine nicht-überwachte Klasseneinteilung automatisch
vorgenommen wird.
52
Dabei werden die Muster anhand der Ähnlichkeit bestimmter
Merkmale klassifiziert.
53
Eine Musterklasse wird nach der Lernphase durch ein oder
mehrere Referenzmuster repräsentiert.
54
Eine weitere Fähigkeit des Gehirns ist die korrekte Durchführung dieser Aufgaben
auch bei gestört wahrgenommenen Mustern. Äquivalent dazu sollten die Musterer-
kennungsaufgaben invariant gegenüber folgenden typischen Musterstörungen (pattern
variability) durchgeführt werden:
55
· Rauschen
56
(pattern noise) in Form fehlender und/oder irrelevanter Muster-
komponenten
57
· Translation (pattern translation)
· Skalierung (pattern scaling)
46 Die weitere Fähigkeit zur Heteroassoziation ist für die Arbeit nicht von Bedeutung.
47 Im Falle der Vervollständigung von Mustern spricht man auch von Musterergänzung (vgl. [67],
S. 141) oder Mustervervollständigung (vgl. [142], S. 53).
48 Vgl. [183], S. 6; [12], S. 101 und [166], S. 451. Die gespeicherten Muster stellen die Wissensbasis
dar.
49 Vgl. [67], S.140 f. und [61], S. 12.
50 Vgl. [67], S. 141.
51 Vgl. [67], S. 6.
52 Man spricht auch von Mustergruppierung (vgl. [183], S. 7), Musterbündelung (vgl. [12], S. 75)
oder Mustereinteilung (vgl. [142], S. 54). Eine Unterscheidung der Musterklassifikation und
Mustergruppierung wurde an dieser Stelle nicht vorgenommen, da die Einsatzphase bei beiden
Verfahren gleich ist.
53 Vgl. [67], S. 7.
54 Vgl. [142], S. 130 f.
55 Störungen zusammengestellt aus [150], S. 215; [53], S. 51 ff.; [185], S. 285 ff.; [134], S. 180 ff.;
[67], S. 271 und [110], S. 71.
56 Unter Rauschen versteht man allgemein die Merkmale oder Objekte eines Musters, die durch
Zufälligkeiten des Sensors entstehen und untereinander sowie mit den Musterkomponenten
nicht korrelieren (vgl. [185], S. 93; [61], S. 12 und [53], S. 187).
57 Man spricht auch von einem ,,additiven Rauschen" (vgl. [165], S. 74).
9
2 Mustererkennung
· Verformung (pattern deformation)
· Rotation (pattern rotation)
Die Erkennung von Handschrift ist ein Beispiel für die Fähigkeit zur Mustererkennung,
ungeachtet verschieden ausgeprägter Störungen. Die Mustererkennungsaufgaben sind
insgesamt dadurch charakterisiert, dass keine einfachen Algorithmen zur maschinellen
Implementierung existieren.
58
2.3 Methoden der Mustererkennung
Grundlage einer Mustererkennungsaufgabe ist ein Mustervergleich (pattern matching)
zwischen einem Eingabemuster und gelernten Mustern der Wissensbasis.
59
Dieser
erfolgt auf Basis der Ähnlichkeit (pattern similarity), wobei Muster einander umso
ähnlicher sind, je stärker sie in ihren Merkmalen übereinstimmen.
60
Allgemein steht
eine Vielzahl von Methoden zur Mustererkennung zur Verfügung, die weitestgehend
auf dem sequentiellen Mustererkennungsprozess aus 2.1 basieren.
61
Für den in der vorliegenden Arbeit betrachteten visuellen Bereich der Mustererken-
nung werden u.a. der naive Mustervergleich (naive template matching) und Methoden
der klassischen Statistik (statistical pattern recognition) verwendet. Der naive Muster-
vergleich ist allerdings nur eingeschränkt einsetzbar, da Eingabemuster und bekannte
Muster der Wissensbasis punktweise verglichen werden.
62
Jegliche Störungen der
Eingabemuster führen zu einem Versagen dieser Methode.
63
Durch den Einsatz
statistischer Methoden lässt sich die Mustererkennung auch bei Musterstörungen
erfolgreich durchführen.
64
Die Ähnlichkeit von Mustern wird bei diesen Verfahren
über Abstandsmaße bzgl. der Merkmalsvektoren bewertet.
65
Problematisch bei diesen
Verfahren ist der mangelhafte Umgang mit mehreren Musterstörungen nach dem
biologischen Vorbild. Allerdings ist eine Methode gefordert, die diese Eigenschaft
erfüllt.
66
Weiterhin problematisch ist der sequentielle Ablauf der verschiedenen Teil-
schritte des Mustererkennungsprozesses aus 2.1. Die natürliche Mustererkennung ist
58 Vgl. [183], S. 6, 8.
59 In Anlehnung an [91], S. 6 und [143], S. 2.
60 Vgl. [143], S. 2 und [131], S. 9 f.
61 Siehe bspw. Übersicht in [91], S. 9.
62 Vgl. [183], S. 9. Bildvergleich wird beschrieben in [11], S. 411 ff.
63 Vgl. [151], S. 8.
64 Vgl. [156], S. 6 f.
65 Vgl. [104], S. 11.
66 Vgl. [147], S. 816.
10
2 Mustererkennung
dagegen ein hochkomplexer integrierter Prozess auf Basis eines enormen biologischen
neuronalen Netzwerkes.
67
Aufgrund dieser Probleme ist eine Betrachtung von KNN
unerlässlich. KNN orientieren sich mit ihrer Struktur an diesem biologischen Vorbild,
werden aber dennoch der statistischen Mustererkennung zugeordnet und erweitern die
klassischen Methoden.
68
Im folgenden Kapitel werden die wesentlichen Grundlagen
von KNN erläutert und der potentielle Einsatz zur Mustererkennung aufgezeigt.
67 Vgl. [183], S. 9 f.
68 Vgl. [10], S. 1; [15], S. 243; [10], S. ix und [14], S. 3.
11
3 Künstliche Neuronale Netze
3 Künstliche Neuronale Netze
Ein KNN lässt sich allgemein als ein DV-technisches Modell des Gehirns verstehen,
das aus einer hohen Anzahl hochgradig vernetzter einfacher Rechenelemente besteht.
69
In diesem Kapitel werden die wesentlichen Grundlagen und der potentielle Einsatz
von KNN zur Mustererkennung betrachtet.
3.1 Standardneuronenmodell
Abb. 3.1 zeigt vergleichend die charakteristischen Komponenten eines KNN und eines
biologischen neuronalen Netzes (BNN).
70
Innerhalb eines BNN sind Nervenzellen (NZ)
Abbildung 3.1: Vergleich biologisches und künstliches neuronales Netz
Quelle: Eigene Darstellung nach [133], S. 19 ff. und [185], S. 36, 38, 71.
miteinander verbunden. Diese empfangen Eingabesignale in Form von Nervenimpulsen
über Dendriten von anderen NZ und senden wiederum einen Impuls als Ausgabesignal
über das Axon
71
an die Dendriten weiterer NZ. Eine NZ erzeugt genau dann ein
Ausgabesignal, wenn ihr aktuelles elektrisches Potential durch die Eingabesignale über
einen bestimmten Schwellenwert angehoben wird.
72
Die Verteilung dieser Ausgabe
erfolgt durch Verzweigungen des Axons, die indirekt über Synapsen mit den Dendriten
nachfolgender NZ in Kontakt treten. Synapsen übernehmen die Aufgabe der Erregung
(exzitatorische Synapsen) oder Hemmung (inhibitorische Synapsen) von Impulsen.
Mit Dendriten verbundene Synapsen sind in der Regel erregend, während hemmende
Synapsen meist direkt mit einem Zellkörper verbunden sind.
73
69 Vgl. [154], S. 14.
70 Das biologische Modell ist stark vereinfacht dargestellt.
71 Oder auch Nervenfaser, Ausgabeleitung.
72 Man sagt auch, dass die Zelle ,,feuert".
73 Inhalte des Abschnitts nach [185], S. 35 ff. und [133], S. 19 ff.
13
3 Künstliche Neuronale Netze
An diesem biologischen Vorbild orientieren sich KNN stark idealisiert. Ein KNN wird
dabei durch folgende Komponenten beschrieben:
74
1. Eine Menge von Zellen (oder auch Neuronen, Rechenelemente, Units)
Eine Zelle
j ist dabei charakterisiert durch
· einen aktuellen Aktivierungszustand a
j
zum Zeitpunkt
t
· eine Aktivierungsfunktion
75
zur Bestimmung deren neuer Aktivität
a
j
im folgenden Zeitpunkt
(t + 1) auf Basis des alten Aktivierungszustands
a
j
(t), der (Netz-) Eingabe (net input) net
j
(t) und des Schwellenwertes
j
a
j
= a
j
(t + 1) = f
Aktivierung
(a
j
(t), net
j
(t),
j
)
(3.1)
· eine Ausgabefunktion
76
zur Ermittlung deren Ausgabewertes
o
j
anhand
der (neuen) Aktivierung
o
j
= f
Ausgabe
(a
j
)
(3.2)
Aktivierungs- und Ausgabefunktion lassen sich zu einer Transferfunktion zu-
sammenfassen, sobald sich die Ausgabe direkt anhand der Eingabe berechnen
lässt:
77
o
j
= f
T ransf er
(net
j
(t) ,
j
)
(3.3)
2. Gewichtete Verbindungen zwischen ausgewählten Zellen
Der Ausdruck
w
ij
bezeichnet in diesem Zusammenhang das Verbindungsgewicht
zwischen den Zellen
i und j, wobei w
ij
= w
ji
gilt.
3. Eine Eingangsfunktion (oder auch Propagierungs-, Inputfunktion)
Diese Funktion legt fest, wie sich die gesamte Eingabe einer Zelle aus allen
eingehenden Signalen berechnet, wobei annahmegemäß jedes weitere Eingangs-
signal einen additiven Beitrag leistet. Die Berechnung der Eingabe ergibt sich
74 Vgl. [185], S. 72 f.
75 Beispiele für Aktivierungsfunktionen siehe [67], S. 30.
76 Beispiele für Ausgabefunktionen siehe [67], S. 31 und [154], S. 51.
77 Vgl. [67], S. 29.
14
3 Künstliche Neuronale Netze
meist als kumulierter Input der mit den Verbindungsgewichten multiplizierten
Eingabesignale:
78
net
j
(t) =
i
w
ij
· o
i
(t)
(3.4)
4. Lernregel
Hierbei handelt es sich um einen Algorithmus, der meist die Anpassung der
Kantengewichte durchführt. Darüber hinaus kann eine Lernregel die Erzeugung
und Löschung von Zellen und Kanten, die Anpassung der Schwellenwerte sowie
die Modifikation der mathematischen Funktionen durchführen.
79
3.2 Grundlegende Netzarchitekturen
Als grundlegende Netztypen lassen sich vorwärts gerichtete, rekursive und hybride
Netze identifizieren.
80
Vorwärts gerichtete Netze (feedforward ) sind durch einen
vorwärts gerichteten Signalfluss charakterisiert. Netze dieser Art mit einer Stufe
bestehen aus einer Schicht von Eingabezellen (input layer ), deren Aktivierungen
zusammen den Eingabevektor bilden, und einer damit verbundenen Schicht von
Ausgabezellen (output layer ), deren Aktivierungen analog den Ausgabevektor bilden.
Mehrstufige Netze beinhalten zwischen Ein- und Ausgabeschicht eine oder mehrere
hintereinander geschaltete versteckte Schichten (hidden layer ), deren Zellen als
versteckte Zellen bezeichnet werden.
81
Im Unterschied zu vorwärts gerichteten Netzen
integrieren rekursive Netze Rückkopplungen (feedback )
82
verschiedenster Art und
eine Trennung zwischen Eingabe- und Ausgabeschicht entfällt in diesem Fall.
83
Auf
Basis dieser beiden Architekturen existieren des Weiteren hybride Architekturen.
78 Vgl. [67], S. 16. Weitere Beispiele siehe [154], S. 49 ff. und [67], S. 17.
79 Vgl. [185], S. 84 und [133], S. 36.
80 In Anlehnung an [133], S. 50 und [183], S. 78.
81 Vgl. [77], S. 25.
82 Bspw. direkte, indirekte und laterale Rückkopplungen (vgl. [185], S. 79).
83 Vgl. [77], S. 50.
15
3 Künstliche Neuronale Netze
3.3 Lernverfahren
Die Möglichkeit, aus Erfahrungen zu lernen, und das Gelernte bei veränderten bzw.
neuen Bedingungen zur Verhaltensanpassung heranzuziehen, ist eine überlebenswich-
tige Fähigkeit des Gehirns.
84
In diesem Zusammenhang arbeitet ein KNN in einer
Lern- und Einsatzphase.
85
Für die Lernphase bzw. das ,,Training" lassen sich das über-
wachte, nicht-überwachte und bestärkende Lernen als Kategorien für Lernverfahren
identifizieren, auf denen Lernregeln basieren.
86
Im Rahmen des überwachten Lernens (supervised learning) findet der Lernprozess
unter Aufsicht eines ,,Lehrers" statt, der das KNN mit ausgewählten (Eingabevektor;
Ausgabevektor)-Paaren trainiert. Aus diesen gibt der Lehrer in einem Lernschritt
einen Eingabevektor vor, für den das KNN in seiner aktuellen Konfiguration einen
Ausgabevektor berechnet. Die Aufgabe einer konkreten Lernregel ist anschließend
eine wiederholte Anpassung der Kantengewichte auf Basis der Abweichung dieses
Ausgabevektors von dem bekannten Ausgabevektor, bis das Netz zu dem angeleg-
ten Eingabevektor den gewünschten Ausgabevektor erzeugt. Dieses Lernverfahren
ermöglicht ein schnelles Training eines KNN, ist aber biologisch nicht plausibel.
87
Das nicht-überwachte Lernen (unsupervised learning, self-organization) ist durch
einen Lernprozess ohne Aufsicht charakterisiert, d.h. die Trainingsdaten bestehen
lediglich aus Eingabevektoren, die dem KNN während des Trainings präsentiert
werden. Auf Basis der aktuellen Kantengewichte berechnet das KNN damit die
Ausgabevektoren, erhält aber kein Feedback über deren Korrektheit. Vielmehr ist es
die Aufgabe einer konkreten Lernregel, die strukturierten Eigenschaften der Trai-
ningsdaten selbstorganisierend zu lernen. Das nicht-überwachte Lernen ist biologisch
am plausibelsten.
88
Das bestärkende Lernen (reinforcement learning) kann als eine Kombination des
überwachten und nicht-überwachten Lernens angesehen werden, wobei ein KNN
lediglich Informationen über die Korrektheit der berechneten Ausgabe erhält, die
gewünschte Ausgabe aber nicht kennt. Das Verfahren ist im Vergleich zu dem
überwachten Lernen biologisch plausibel, aber dafür langsamer.
89
84 Vgl. [154], S. 14.
85 Vgl. [77], S. 30 f.
86 Vgl. [185], S. 93 und [133], S. 46. Die Kategorien wurden auf Basis des Feedbacks gebildet,
worauf dem KNN im Lernprozess Zugriff gewährt wird.
87 Vgl. [133], S. 42 f. und [185], S. 93.
88 Vgl. [133], S. 42; [185], S. 93 und [67], S. 65.
89 Vgl. [185], S. 93.
16
3 Künstliche Neuronale Netze
Im Anschluss an die Lernphase lässt sich das Netz beliebig oft einsetzen, indem dem
trainierten Netz unbekannte Eingaben präsentiert werden. Auf Basis der gelernten
Kantengewichte erzeugt das Netz spezifische Ausgaben. Diese Einsatzphase ist durch
einen geringen Rechenaufwand charakterisiert, deren Ergebnisqualität durch die
Qualität
90
und Länge der Lernphase bestimmt wird.
91
3.4 Einsatz im Bereich der Mustererkennung
Eine Eignung von KNN zur Mustererkennung ergibt sich zunächst aus deren potentiel-
ler Integration in den Mustererkennungsprozess aus 2.1. Die geforderte Unterstützung
der Lern- und Einsatzphase wird durch KNN erfüllt, da diese Phasen integraler
Bestandteil sind.
92
In der Lernphase wird das KNN auf ausgewählte Muster trai-
niert und integriert direkt die Wissensbasis. Die Trennung der Lernphase von der
Einsatzphase nach 5.1.1 entfällt damit. Vielmehr werden in der Lernphase die Teil-
schritte der Einsatzphase für eine Stichprobe von ausgewählten Trainingsmustern
durchgeführt und ein KNN damit trainiert. Weiterhin wird die in der Einsatzphase
geforderte Transformation eines Eingabemusters in ein Ausgabemuster basierend auf
der Wissensbasis durch ein KNN vorgenommen.
Darüber hinaus muss eine Eignung von KNN zur Implementierung der konkreten
Mustererkennungsaufgaben aus 2.2 gewährleistet sein. Die Musterassoziation erfor-
dert den Abruf zuvor gespeicherter Muster. Der Eingaberaum entspricht dabei dem
Ausgaberaum, weshalb der Einsatz von rekursiven KNN angebracht ist. Die Muster-
klassifikation hat die Zuordnung unbekannter Muster zu gelernten Musterklassen zum
Ziel.
93
In diesem Fall unterscheiden sich der Eingabe- und Ausgaberaum, weshalb
sich der Einsatz von vorwärts gerichteten KNN ergibt. Dabei ist die Unterstützung
einer überwachten und nicht-überwachten Lernphase gefordert
94
, die KNN inhärent
bietet.
Im weiteren Verlauf der Arbeit werden das HN und das Neokognitron zur Musterer-
kennung betrachtet. Neben den theoretischen Grundlagen erfolgen eine Bewertung der
dadurch implementierten Mustererkennungsaufgabe(n) sowie der Leistungsfähigkeit,
insbesondere bzgl. des Umgangs mit Musterstörungen.
90 Bezieht sich u.a. auf die Wahl der Trainingsmuster.
91 Vgl. [77], S. 31.
92 Siehe 3.3.
93 Siehe 2.2 und [67], S. 140.
94 Siehe 2.2.
17
4 Hopfield-Netz
4 Hopfield-Netz
Das HN geht auf den am. Physiker John J. Hopfield
95
zurück und hat seinen
Ursprung im Bereich der Physik, speziell der Spinglastheorie
96
der Festkörperphysik.
97
Das HN basiert auf dem Ising-Modell
98
, woraus eine entsprechende Isomorphie
resultiert. Die Netzbeschreibung erfolgte 1982
99
sowie 1984
100
. Das HN findet u.a.
Anwendung im Bereich der Optimierung
101
, aber auch zur Mustererkennung
102
, in
der es als ,,populärster Vertreter der Assoziativspeicher"
103
gilt.
In diesem Kapitel steht das binäre HN im Vordergrund. Zunächst werden die
allgemeine Netzstruktur und anschließend die Muster-Erkennung, -Speicherung
sowie -Löschung betrachtet. Des Weiteren werden potentielle Konfigurationen ei-
nes binären HN im Überblick dargestellt. Das Kapitel schließt mit einer Bewertung
des HN zur Mustererkennung.
4.1 Netzstruktur
Ein binäres HN ist ein rekursives KNN, das aus
n vollständig miteinander ver-
netzten Zellen, ohne direkte Rückkopplungen, besteht.
104
Eine Zelle repräsentiert
ein Musterpixel und kann einen Wert aus der Menge
{-1; +1} annehmen.
105
Der
Schwellenwert
j
einer Zelle
j kann einen beliebigen Wert annehmen, allerdings
werden die Schwellenwerte aller Zellen an dieser Stelle als
0 angenommen. Durch
die Verbindungsstruktur wird eine Kante zwischen zwei Zellen
i und j für i = j
mit
w
ij
= w
ji
und die Verbindung einer Zelle
j mit sich selbst (self-feedback) mit
w
jj
= 0 gewichtet.
106
Alle Kantengewichte eines HN mit
n Zellen lassen sich in
einer entsprechend symmetrischen Gewichtsmatrix
W darstellen, die in Anhang A.1
95 Website von Hopfield an der Princeton University: [70].
96 Siehe z.B. [101] und [29].
97 Vgl. [185], S. 97; [77], S. 50, 53 und [142], S. 138.
98 Vgl. [79].
99 Vgl. [68].
100 Vgl. [69].
101 Zum Beispiel zur Bestimmung von Näherungslösungen für das Traveling Salesman Problem
(vgl. [185], S. 201 ff.).
102 Vgl. [77], S. 56 und [142], S. 138 ff.
103 Vgl. [142], S. 138.
104 Vgl. [185], S. 79, 197.
105 Vgl. [77], S. 51 und [62], S. 688.
106 Vgl. [62], S. 689.
19
4 Hopfield-Netz
gezeigt wird. Als Transferfunktion einer Zelle
j wird die Signumfunktion in Formel
4.1 verwendet.
107
o
j
(t + 1) = f
T ransf er
(net
j
(t + 1) -
j
) =
+1 ,falls net
j
(t + 1)
j
-1 ,falls net
j
(t + 1)
j
(4.1)
Die Eingabe einer Zelle
j ergibt sich nach Formel 4.2 als kumulierter Input der mit
den jeweiligen Kantengewichten multiplizierten aktuellen Zustände aller anderen
Zellen.
108
net
j
(t + 1) =
i
w
ij
· o
i
(t)
(4.2)
Weiterhin berechnen alle Zellen gleichzeitig ihren neuen Zustand im Rahmen eines
Zeitschrittes, so dass man von einer synchronen Aktivierung spricht.
109
Daher lassen
sich Formel 4.3 und 4.4 in vektorieller Schreibweise wie folgt darstellen:
o (t + 1) = f
T ransf er
(net (t + 1) - )
(4.3)
net
(t + 1) = W · o(t)
(4.4)
Zu einem Zeitpunkt
t ist der (Netz-)Zustand bzw. das angelegte Muster eines HN
durch die Ausgaben aller Zellen in Form des binären Zustandsvektors o
(t) gegeben.
Ein binäres HN mit
n Zellen kann insgesamt 2
n
verschiedene Zustände annehmen.
110
4.2 Mustererkennung
In der Einsatzphase wird der autoassoziative Abruf der im HN gespeicherten Muster
durch das Anlegen von Eingabemustern durchgeführt.
111
Dabei geht man von einem
HN aus, das die Eigenschaften aus 4.1 erfüllt, in dem alle Kantengewichte im Rahmen
der Musterspeicherung angepasst wurden und das anzulegende Eingabemuster als
binärer Eingabevektor kodiert vorliegt.
107 Vgl. [77], S. 18, 51 und [185], S. 198.
108 Vgl. [68], S. 2555. Formel in Anlehnung an [185], S. 198 und [77], S. 51.
109 Vgl. [185], S. 199 und [67], S. 93.
110 Vgl. [185], S. 199 und [91], S. 277. Entspricht nach [185], S. 199 den ,,Ecken eines
n-dimensionalen
Hyperwürfels". Die Begriffe Muster und Zustand sind synonym zu verstehen.
111 Vgl. [142], S. 141.
20
4 Hopfield-Netz
4.2.1 Rekursive Berechnung
An dieses HN wird der Eingabevektor angelegt, so dass die daraus resultierende
initiale Netzbelegung den Startzustand o
(t = 0) des HN repräsentiert. Auf dessen
Basis werden anschließend, durch Wiederholung des Rekursionsschrittes
t + 1, die
neuen Netzzustände nach Formel 4.3 berechnet. Diese schrittweise Ermittlung des
Ausgabemusters ergibt einen der folgenden Endzustände des HN, die anschließend
physikalisch motiviert erläutert werden:
112
1. einen Fixpunkt o
(t + 1) = o(t), für ein ausreichend großes t
2. einen Zyklus o
(t + T ) = o(t), für ein ausreichend großes t und eine fixe
Periodendauer
T 1
4.2.2 Energiefunktion
Auf Basis der Analogie zum physikalischen Modell der Spingläser lässt sich für
jeden Netzzustand o
(t), mithilfe einer monoton fallenden Energiefunktion
113
, die
sogenannte ,,Netzenergie"
E berechnen, wobei es sich um eine Hamiltonfunktion
114
nach Formel 4.5 handelt.
115
E(t) = -
1
2
· o
T
(t) · W · o(t)
(4.5)
Alle möglichen Netzzustände bilden zusammen durch die Energiefunktion ein ,,Ener-
giegebirge" mit Energie-Maxima und -Minima.
116
Die Energieminima repräsentieren
dabei die im HN gespeicherten Muster, so dass sich bei direktem Anlegen eines
gespeicherten Musters nach jedem Rekursionsschritt
t + 1 dieses Muster wieder-
holt als Ausgabe ergibt.
117
Andernfalls erreicht man nach einer endlichen Anzahl
von Iterationen ein ,,Energietal"
118
im Energiegebirge, welches entweder aus einem
oder mehreren lokal benachbarten Energieminima gleicher Energie besteht.
119
Die
Mustererkennung kann man sich damit als Bewegung in diesem Energiegebirge vor-
stellen, die ausgehend von der Energie des Eingabemusters beginnt. Dabei werden
112 Vgl. [142], S. 141 und [133], S. 143 f.
113 Vgl. [77], S. 53; [68], S. 2556 und [154], S. 110. Synonym ,,Zustandsfunktion" (vgl. [67], S. 55).
114 Vgl. [67], S. 54 f.
115 Vgl. [142], S. 142 ff.; [133], S. 144 und [77], S. 53 f.
116 Vgl. [77], S. 54.
117 Vgl. [77], S. 54 f. und [142], S. 144.
118 Vgl.[142], S. 144.
119 Vgl. [133], S. 144; [142], S. 144; [67], S. 94 und [77], S. 54.
21
4 Hopfield-Netz
immer gleich hohe oder tiefer gelegene Energieniveaus erreicht.
120
Konvergiert der
Iterationsprozess gegen ein Energietal bestehend aus einem lokalen Minimum, so
ergibt sich ein stabiler Netzzustand, der einem Fixpunkt entspricht.
121
Führt der
Iterationsprozess dagegen in ein Energietal bestehend aus mehreren Zuständen, so
oszilliert
122
das Iterationsverfahren zwischen diesen Zuständen. Der resultierende
Endzustand entspricht in diesem Fall einem Zyklus, wobei ein Energietal in der
Regel aus zwei Zuständen besteht und somit für die Periodendauer
T = 2 gilt.
123
Die beispielhafte Darstellung einer Energiefunktion ist in Anhang A.2 zu finden.
4.3 Musterspeicherung
Die Speicherung bzw. das Lernen von
m Mustern einer Mustermenge M erfordert
sowohl deren Skalierung auf eine einheitliche Pixelanzahl als auch ein HN mit ent-
sprechender Zellenanzahl. Sie erfolgt durch analytische Adaption der Kantengewichte
anhand der einzelnen Muster
= 1, ..., m, anstelle eines algorithmischen Lernvor-
gangs.
124
Das Kantengewicht
w
[]
ij
zwischen zwei Zellen
i und j, bei der Speicherung
eines Musters
, wird auf Basis der Zellenzustände o
[]
i
und
o
[]
j
sowie dem alten
Kantengewicht
w
[-1]
ij
durch die Rechenvorschrift in Formel 4.6 ermittelt, wobei es
sich um eine Hebb'sche Lernregel handelt und
w
[-1]
ij
für das erste Muster (
= 1) 0
ist.
125
w
[]
ij
=
0
, falls i = j
w
[-1]
ij
+
1
n
· o
[]
i
· o
[]
j
, falls i = j
(4.6)
Allerdings ist die Speicherkapazität eines HN bzgl. der korrekten Mustererken-
nung begrenzt und hängt u.a. von der Zellenanzahl des HN sowie der Unabhän-
gigkeit der Muster ab.
126
Die maximale Speicherkapazität unter der Bedingung
120 Vgl. [142], S. 143 f. und [67], S. 94. Nach [67], S. 54 f. bleibt die Energie nur konstant, wenn
keine Zustandsänderung stattfindet (Annahme einer streng monoton fallenden Energiefunktion).
Allerdings kann die Energie auch bei Zustandsänderung konstant bleiben, wenn z.B. mehrere
Muster in einem Energietal liegen (monoton fallende Energiefunktion).
121 Vgl. [67], S. 94.
122 Ein stabiler Endzustand wird in diesem Fall nicht erreicht, da sich die benachbarten lokalen
Minima im Iterationsprozess immer wieder gegenseitig aufrufen (vgl. [142], S. 145).
123 Vgl. [77], S. 54 f.
124 Vgl. [77], S. 55.
125 In Anlehnung an [166], S. 451; [62], S. 688 und [77], S. 55. Der Term
1/n wird verwendet, damit
die Gewichtswerte nicht zu groß werden, kann aber auch entfallen (wie in bspw. [142], S. 141;
[154], S. 110 und [68]).
126 Vgl. [142], S. 144.
22
Details
- Seiten
- Erscheinungsform
- Originalausgabe
- Erscheinungsjahr
- 2011
- ISBN (eBook)
- 9783842820364
- DOI
- 10.3239/9783842820364
- Dateigröße
- 6.9 MB
- Sprache
- Deutsch
- Institution / Hochschule
- Martin-Luther-Universität Halle-Wittenberg – Wirtschaftswissenschaftliche Fakultät, Wirtschaftsinformatik
- Erscheinungsdatum
- 2011 (September)
- Note
- 1,0
- Schlagworte
- künstliche neuronale netze neokognitron hopfield netz mustererkennung e-learning