Lade Inhalt...

Klassifikation von Tumoren mit GP-basierter DNA-Chip-Analyse

©2003 Diplomarbeit 135 Seiten

Zusammenfassung

Inhaltsangabe:Zusammenfassung:
Krebserkrankungen sind die zweithäufigste Todesursache in den Industrienationen. Daher ist es wichtig, neue Behandlungsmethoden und Medikamente zu entwickeln, die effizienter und schonender wirken als heutige Therapien. Eine wichtige Voraussetzung für jede Behandlung ist die richtige Diagnose. Bei Tumoren gibt es jedoch viele verschiedene Arten und Subtypen, die sich äußerlich kaum unterscheiden, deren Biologie aber sehr unterschiedlich sein kann.
Daher ist die Erfassung der inneren Vorgänge in den betroffenen Geweben von großer Bedeutung. Ein wichtiges Hilfsmittel ist dabei die DNA-Chip-Technologie. Mit DNA-Chips lassen sich „Schnappschüsse“ der Abläufe in den Zellen machen, indem die Genexpression der verschiedenen Gene gemessen wird. Mit Hilfe dieser Expressionsdaten lassen sich dann Rückschlüsse auf die Situation ziehen. So kann man Typen von Tumoren klassifizieren und erkennen, welche Gene am bösartigen Zellwachstum beteiligt sind.
In der Zukunft kann dies vielleicht einmal die Herstellung neuer, spezifischer Medikamente ermöglichen. Problematisch ist jedoch die Auswertung der Expressionsdaten, da es sich dabei nur um lange Folgen von scheinbar zusammenhangslosen Zahlen handelt. Bisher wurden dafür hauptsächlich statistische Klassifikationsverfahren, wie Nachbarschaftsanalyse, selbstorganisierte Karten oder Support Vector Machines benutzt.
Kern dieser Diplomarbeit ist die Untersuchung, wie sich „Genetische Programmierung“ (GP) für die DNA-Chip-Analyse eignet. GP funktioniert im Allgemeinen gut bei der Erkennung von verborgenen Strukturen in großen Datenmengen. Untersucht werden bestimmte binäre und multiple Klassifikationsprobleme aus dem Bereich der Krebsdiagnose, etwa die Frage, ob bestimmtes Gewebe gesund ist oder aus bösartigen Zellen besteht, oder um welche Art von Krebs es sich handelt. Als Datenbasis dienen verschiedene im Internet verfügbare öffentliche Datenmengen, die auch schon mit anderen Klassifikationsverfahren benutzt worden sind. Die Ergebnisse der GP-Versuche sind kleine automatisch generierte Programme, sogenannte Klassifikatoren, die für die Datensätze die jeweils vorher definierte Fragestellung beantworten sollen. Die Arbeit ist folgendermaßen gegliedert:
In Kapitel 2 wird der biologische Hintergrund erläutert. Das Kapitel ist in zwei Teile aufgeteilt. Im ersten Teil wird ein Einblick in die molekulare Genetik gegeben. Dabei werden Geschichte der Genetik, der Aufbau der DNA, der Vorgang […]

Leseprobe

Inhaltsverzeichnis


ID 7724
Roßkopf, Michael: Klassifikation von Tumoren mit GP-basierter DNA-Chip-Analyse
Hamburg: Diplomica GmbH, 2004
Zugl.: Universität Dortmund, Universität, Diplomarbeit, 2003
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2004
Printed in Germany

Inhaltsverzeichnis
1
Einleitung
1
2
Biologische Grundlagen
3
2.1
Molekulare Genetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1.1
Einf¨
uhrung und Geschichte der Genetik . . . . . . . . . . . . . . . . . . .
3
2.1.2
Aufbau der DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.1.3
Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.1.4
Translation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.1.5
Regulation der Genexpression . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2
Krebserkrankungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.1
Krebsarten und Ursachen . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.2
Schutz und Reparaturfunktionen der Zellen . . . . . . . . . . . . . . . . .
14
2.2.3
Onkogene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3
DNA-Chips
20
3.1
Aufbau und Anwendung von DNA-Chips
. . . . . . . . . . . . . . . . . . . . . .
20
3.1.1
Motivation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.1.2
Funktionsweise, Typen und Herstellung . . . . . . . . . . . . . . . . . . .
20
3.1.3
Ausleseverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.2
Statistische Lernverfahren zur Analyse von DNA-Chips
. . . . . . . . . . . . . .
23
3.2.1
Abstand zu den Zentroiden der Klassen . . . . . . . . . . . . . . . . . . .
24
3.2.2
Betrachtung der k n¨
achsten Nachbarn . . . . . . . . . . . . . . . . . . . .
24
3.2.3
Methode der geschrumpften Zentroiden . . . . . . . . . . . . . . . . . . .
24
3.2.4
Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.2.5
Gewichtete Abstimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.2.6
Hierarchisches Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.2.7
Selbstorganisierte Karten . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.2.8
Doppelt konjugiertes Clustering . . . . . . . . . . . . . . . . . . . . . . . .
30

INHALTSVERZEICHNIS
II
4
Genetische Programmierung
31
4.1
Idee und Hintergrund von GP . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
4.1.1
Motivation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
4.1.2
Biologischer Hintergrund: Die Evolution . . . . . . . . . . . . . . . . . . .
32
4.2
Evolution¨
are Optimierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . .
32
4.2.1
Einfache Evolution¨
are Algorithmen . . . . . . . . . . . . . . . . . . . . . .
33
4.2.2
Genetische Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.2.3
Genetische Programmierung . . . . . . . . . . . . . . . . . . . . . . . . . .
35
4.3
Das GP-System Discipulus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
5
Verwendete Datens¨
atze und fr¨
uhere Arbeiten
40
5.1
Die Dickdarm-Tumor-Datenmenge . . . . . . . . . . . . . . . . . . . . . . . . . .
40
5.1.1
Klassifikation mit Zweiwege-Clustering von Alon et al. . . . . . . . . . . .
41
5.1.2
Klassifikation mit Support Vector Machines von Furey et al. . . . . . . . .
41
5.1.3
Klassifikation mit einem genetischen Algorithmus von Li et al.
. . . . . .
41
5.2
Die ALL/AML-Datenmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
5.2.1
Klassifikation mit gewichteter Abstimmung und selbstorganisierten Kar-
ten von Golub et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
5.2.2
Klassifikation mit Support Vector Machines von Furey et al. . . . . . . . .
43
5.2.3
Klassifikation mit geschrumpften Zentroiden von Tibshirani et al. . . . . .
44
5.2.4
Klassifikation mit einem genetischen Algorithmus von Li et al.
. . . . . .
44
5.2.5
Klassifikation mit selektiver Expression von Aris und Recce . . . . . . . .
44
5.2.6
Klassifikation mit doppelt konjugiertem Clustering von Busygin, Jacobsen
und Kr¨
amer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
5.3
Die SRBCT-Datenmenge
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
5.3.1
Klassifikation mit geschrumpften Zentroiden von Tibshirani et al. . . . . .
46
5.3.2
Klassifikation mit GP von Driscoll, Worzel und MacLean
. . . . . . . . .
46
5.4
Die Klassifikation der GCM-Datenmenge von Ramaswamy et al.
. . . . . . . . .
46
6
Vorbereitung und Auswahl der DNA-Chip-Daten
49
6.1
¨
Uberblick ¨
uber die Vorbereitung
. . . . . . . . . . . . . . . . . . . . . . . . . . .
49
6.2
Vorbereitungsschritt 1: Datenanpassung . . . . . . . . . . . . . . . . . . . . . . .
49
6.2.1
Vorgehensweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
6.2.2
Aufteilung der verwendeten Datenmengen . . . . . . . . . . . . . . . . . .
50
6.3
Vorbereitungsschritt 2: Gen-Auswahl mit
"
GeneActivator" . . . . . . . . . . . . .
52
6.3.1
Funktionsweise des Programms . . . . . . . . . . . . . . . . . . . . . . . .
52

INHALTSVERZEICHNIS
III
6.3.2
Genauswahlverfahren
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
6.3.3
Normalisierung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
6.4
Analyse der Genauswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
6.4.1
Die k¨
unstliche erzeugte Datenmenge . . . . . . . . . . . . . . . . . . . . .
57
6.4.2
Genauswahl auf der k¨
unstlichen Menge
. . . . . . . . . . . . . . . . . . .
58
7
GP-L¨
aufe zur DNA-Chip-Analyse
61
7.1
Arbeitsumgebung und allgemeine Einstellungen . . . . . . . . . . . . . . . . . . .
61
7.1.1
Verwendete Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
7.1.2
Verwendete
"
Discipulus"-Parameter
. . . . . . . . . . . . . . . . . . . . .
61
7.2
Bin¨
are Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
7.2.1
GP-L¨
aufe auf der Dickdarm-Tumor-Menge
. . . . . . . . . . . . . . . . .
63
7.2.2
GP-L¨
aufe auf der ALL/AML-Menge . . . . . . . . . . . . . . . . . . . . .
65
7.2.3
GP-L¨
aufe auf der ALL/AML-Menge unter den Bedingungen von Golub
et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
7.2.4
GP-L¨
aufe nach diskreter Normalisierung . . . . . . . . . . . . . . . . . . .
68
7.2.5
GP-L¨
aufe nach kontinuierlicher Normalisierung . . . . . . . . . . . . . . .
70
7.2.6
Zusammenfassung der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . .
71
7.3
Multiple Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
7.3.1
GP-L¨
aufe auf der SRBCT-Menge . . . . . . . . . . . . . . . . . . . . . . .
71
7.3.2
GP-L¨
aufe auf der SRBCT-Menge mit unterschiedlicher Klassengewichtung
76
7.3.3
GP-L¨
aufe auf der SRBCT-Menge basierend auf der Gen-Auswahl von
Driscoll et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
7.3.4
GP-L¨
aufe auf der GCM-Menge . . . . . . . . . . . . . . . . . . . . . . . .
82
7.4
Vergleiche mit anderen Verfahren und Endergebnisse . . . . . . . . . . . . . . . .
86
8
Fazit
88
A GeneActivator Benutzungshandbuch
90
A.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
A.2 Systemvoraussetzungen und Installation . . . . . . . . . . . . . . . . . . . . . . .
91
A.2.1
Systemvoraussetzungen
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.2.2
Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.3 Programmbeschreibung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.3.1
¨
Uberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.3.2
Formatierung einer Datenmenge
. . . . . . . . . . . . . . . . . . . . . . .
91
A.3.3
Beschreibung der Anzeigen . . . . . . . . . . . . . . . . . . . . . . . . . .
92

INHALTSVERZEICHNIS
IV
A.3.4
Beschreibung der Bedienelemente . . . . . . . . . . . . . . . . . . . . . . .
95
A.4 Arbeiten mit Selektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
A.4.1
Funktionsweise eines Selektors
. . . . . . . . . . . . . . . . . . . . . . . .
97
A.4.2
Beschreibung der Selektor-Typen . . . . . . . . . . . . . . . . . . . . . . .
98
A.4.3
Benutzung mehrerer Selektoren . . . . . . . . . . . . . . . . . . . . . . . . 100
A.4.4
Auswertung von Selektoren . . . . . . . . . . . . . . . . . . . . . . . . . . 100
A.4.5
Selektoren
"
von Hand" erzeugen . . . . . . . . . . . . . . . . . . . . . . . 100
A.5 Arbeiten mit Normalisierern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
A.5.1
Konzept und Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . 101
A.5.2
Beschreibung der Normalisierer-Typen . . . . . . . . . . . . . . . . . . . . 101
A.6 Beispielanwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
A.6.1
Vorbereitung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.6.2
Arbeitsschritte mit
"
GeneActivator" . . . . . . . . . . . . . . . . . . . . . 103
A.7 Fehlermeldungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
B GeneActivator API
106
B.1 Klassenbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.1.1
Klasse
"
Calculator"
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.1.2
Klasse
"
Descriptor"
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
B.1.3
Klasse
"
DoubleMatrix"
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
B.1.4
Klasse
"
FileIO" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
B.1.5
Klasse
"
Normalizer" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
B.1.6
Klasse
"
Selector" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
B.2 Hinzuf¨
ugen eigener Berechnungsverfahren . . . . . . . . . . . . . . . . . . . . . . 116
B.2.1
¨
Uberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
B.2.2
Erweiterung der Klasse
"
Selector"
. . . . . . . . . . . . . . . . . . . . . . 116
B.2.3
Anbindung an die graphische Oberfl¨
ache . . . . . . . . . . . . . . . . . . . 117
C Hinweise zur Begleit-CD
119

Abbildungsverzeichnis
2.1
Die DNA-Doppelhelix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Chemische Struktur der 4 verschiedenen DNA-Basen . . . . . . . . . . . . . . . .
5
2.3
Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.4
Translation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.5
Raumstruktur von H¨
amoglobin . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.6
Lactose-Operon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.7
Tryptophan-Operon
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.8
Gesundes Brustgewebe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.9
Gutartiger Brusttumor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.10 Brustkrebs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.11 Modell der Krebsentstehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.12 Exzisionsreparatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.13 Postreplikationsreparatur
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.14 Wirkung der Genexpression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.1
Oberfl¨
ache eines DNA-Chips
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.1
Schema einer Evolutionsstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.2
Schema eines genetischen Algorithmus . . . . . . . . . . . . . . . . . . . . . . . .
35
A.1 Das Hauptfenster von
"
GeneActivator" im Selektor-Modus. . . . . . . . . . . . .
92
A.2 Das Hauptfenster von
"
GeneActivator" im Normalisierer-Modus. . . . . . . . . .
93
A.3 Der Infodialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
B.1 Klassendiagramm von
"
GeneActivator"
. . . . . . . . . . . . . . . . . . . . . . . 107

Tabellenverzeichnis
2.1
Der genetische Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
5.1
Trefferraten auf der GCM-Datenmenge . . . . . . . . . . . . . . . . . . . . . . . .
48
6.1
Vergleich der Auswahlverfahren auf der k¨
unstlichen Datenmenge . . . . . . . . .
59
7.1
Verwendete
"
Discipulus"-Parameter
. . . . . . . . . . . . . . . . . . . . . . . . .
63
7.2
Trefferraten auf der Dickdarm-Tumor-Menge
. . . . . . . . . . . . . . . . . . . .
64
7.3
Trefferraten auf der Dickdarm-Tumor-Menge mit zuf¨
alligen Features . . . . . . .
64
7.4
Trefferrate auf der ALL/AML-Menge . . . . . . . . . . . . . . . . . . . . . . . . .
65
7.5
S2N-Selektor-Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
7.6
Trefferraten auf der ALL/AML-Menge mit zuf¨
alligen Features . . . . . . . . . . .
66
7.7
Vergleich der Auswahlverfahren auf der ALL/AML-Menge . . . . . . . . . . . . .
67
7.8
Trefferraten auf der ALL/AML-Menge bei Verwendung der Aufteilung von Golub
68
7.9
Trefferraten auf der Dickdarm-Tumor-Menge nach diskreter Normalisierung . . .
69
7.10 Trefferraten auf der ALL/AML-Menge nach diskreter Normalisierung . . . . . . .
69
7.11 Trefferraten auf der Dickdarm-Tumor-Menge nach kontinuierlicher Normalisierung 70
7.12 Trefferraten auf der ALL/AML-Menge nach kontinuierlicher Normalisierung . . .
70
7.13 Multiple Klassifikation auf der SRBCT-Test-Menge mit 2P (Einzelprogramme) .
72
7.14 Multiple Klassifikation auf der SRBCT-Test-Menge mit 2P (Team) . . . . . . . .
73
7.15 Multiple Klassifikation auf der SRBCT-Test-Menge mit S2N (Einzelprogramme)
74
7.16 Multiple Klassifikation auf der SRBCT-Test-Menge mit S2N (Team) . . . . . . .
75
7.17 Gewichtete multiple Klassifikation auf der SRBCT-Test-Menge mit S2N (Einzel-
programme) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
7.18 Gewichtete multiple Klassifikation auf der SRBCT-Test-Menge mit S2N (Team) .
78
7.19 Gewichtete multiple Klassifikation auf der SRBCT-Test-Menge mit der Genaus-
wahl von Driscoll (Einzelprogramme) . . . . . . . . . . . . . . . . . . . . . . . . .
79
7.20 Gewichtete multiple Klassifikation auf der SRBCT-Test-Menge mit der Genaus-
wahl von Driscoll (Team)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80

TABELLENVERZEICHNIS
VII
7.21 Positionen der Driscoll-Gene bei Verwendung der Auswahlverfahren
. . . . . . .
81
7.22 Ergebnisse auf der GCM-Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
7.23 Vergleich der Trefferraten auf den einzelnen Klassen der GCM-Applied-Menge . .
85
7.24 Vergleich der besten Ergebnisse mit
"
Discipulus" mit den besten Ergebnissen
anderer Arbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
A.1 Fehlermeldungen bei
"
GeneActivator" . . . . . . . . . . . . . . . . . . . . . . . . 105

Kapitel 1
Einleitung
Krebserkrankungen sind die zweith¨
aufigste Todesursache in den Industrienationen. Daher ist
es wichtig, neue Behandlungsmethoden und Medikamente zu entwickeln, die effizienter und
schonender wirken als heutige Therapien. Eine wichtige Voraussetzung f¨
ur jede Behandlung
ist die richtige Diagnose. Bei Tumoren gibt es jedoch viele verschiedene Arten und Subtypen,
die sich ¨
außerlich kaum unterscheiden, deren Biologie aber sehr unterschiedlich sein kann. Da-
her ist die Erfassung der inneren Vorg¨
ange in den betroffenen Geweben von großer Bedeu-
tung. Ein wichtiges Hilfsmittel ist dabei die DNA-Chip-Technologie. Mit DNA-Chips lassen sich
"
Schnappsch¨
usse" der Abl¨
aufe in den Zellen machen, indem die Genexpression der verschiede-
nen Gene gemessen wird. Mit Hilfe dieser Expressionsdaten lassen sich dann R¨
uckschl¨
usse auf
die Situation ziehen. So kann man Typen von Tumoren klassifizieren und erkennen, welche Ge-
ne am b¨
osartigen Zellwachstum beteiligt sind. In der Zukunft kann dies vielleicht einmal die
Herstellung neuer, spezifischer Medikamente erm¨
oglichen.
Problematisch ist jedoch die Auswertung der Expressionsdaten, da es sich dabei nur um lange
Folgen von scheinbar zusammenhangslosen Zahlen handelt. Bisher wurden daf¨
ur haupts¨
achlich
statistische Klassifikationsverfahren, wie Nachbarschaftsanalyse, selbstorganisierte Karten oder
Support Vector Machines benutzt. Kern dieser Diplomarbeit ist die Untersuchung, wie sich
"
Ge-
netische Programmierung" (GP) f¨
ur die DNA-Chip-Analyse eignet. GP funktioniert im Allge-
meinen gut bei der Erkennung von verborgenen Strukturen in großen Datenmengen. Untersucht
werden bestimmte bin¨
are und multiple Klassifikationsprobleme aus dem Bereich der Krebsdia-
gnose, etwa die Frage, ob bestimmtes Gewebe gesund ist oder aus b¨
osartigen Zellen besteht,
oder um welche Art von Krebs es sich handelt. Als Datenbasis dienen verschiedene im Inter-
net verf¨
ugbare ¨
offentliche Datenmengen, die auch schon mit anderen Klassifikationsverfahren
benutzt worden sind. Die Ergebnisse der GP-Versuche sind kleine automatisch generierte Pro-
gramme, sogenannte Klassifikatoren, die f¨
ur die Datens¨
atze die jeweils vorher definierte Frage-
stellung beantworten sollen. Die Arbeit ist folgendermaßen gegliedert:
In Kapitel 2 wird der biologische Hintergrund erl¨
autert. Das Kapitel ist in zwei Teile aufgeteilt.
Im ersten Teil wird ein Einblick in die molekulare Genetik gegeben. Dabei werden Geschich-
te der Genetik, der Aufbau der DNA, der Vorgang der Proteinbiosynthese (Transkription und
Translation) und verschiedene Regulationsmechanismen behandelt. Das zweite Unterkapitel be-
fasst sich mit der Biologie von Krebszellen. Dabei wird gezeigt, wie Krebs entstehen kann, aber
auch welche Schutzfunktionen die Zellen dagegen besitzen. Einen wichtigen Abschnitt nehmen
außerdem die Onkogene ein. Diese speziellen Gene l¨
osen m¨
oglicherweise Krebs aus, wenn es zu
bestimmten Mutationen kommt, und sie sind ein Hinweis darauf, dass Tumorwachstum ein in
jeder Zelle vorhandenes Programm sein k¨
onnte.

1 Einleitung
2
DNA-Chips sind der Schwerpunkt von Kapitel 3. Es wird erkl¨
art, wie solche Chips benutzt wer-
den und warum sie so vorteilhaft sind. Außerdem gibt es einen ¨
Uberblick ¨
uber die verschiedenen
Typen von DNA-Chips, ¨
uber deren Herstellungsverfahren und ¨
uber die Auslesemethoden. Der
zweite Teil des Kapitels handelt von unterschiedlichen Methoden zur Auswertung der Daten.
Dabei werden verschiedene bew¨
ahrte ¨
uberwachte und nicht ¨
uberwachte Verfahren aufgef¨
uhrt
und erl¨
autert.
Kapitel 4 widmet sich der Genetischen Programmierung. Darin werden die Parallelen zur Natur
anhand einer Einf¨
uhrung in die biologische Evolution gezeigt. ¨
Uber einfache evolution¨
are Opti-
mierungsverfahren und genetische Algorithmen gehen die Ausf¨
uhrungen weiter zur Genetischen
Programmierung und ihren Besonderheiten. Danach wird die Software
"
Discipulus" vorgestellt.
Dieses GP-System wurde f¨
ur alle Versuche verwendet, die f¨
ur diese Arbeit durchgef¨
uhrt wurden.
In Kapitel 5 werden die f¨
ur diese Arbeit verwendeten Datenmengen vorgestellt. Enthalten ist
auch eine Zusammenfassung anderer ver¨
offentlichter Arbeiten, in denen diese Daten benutzt wur-
den. Dabei werden auch die dort gemachten Ergebnisse aufgef¨
uhrt. Dies erm¨
oglicht es, sp¨
atere
Ergebnisse zu vergleichen und die G¨
ute der GP-Klassifikatoren in Relation zu anderen Methoden
zu setzen.
Die Vorbereitungen f¨
ur die Versuche mit
"
Discipulus" sind in Kapitel 6 dokumentiert. Da die
Datenmengen aus unterschiedlichsten Quellen stammen und sehr umfangreich sind, mussten
sie vorher aufbereitet und in ein einheitliches Format gebracht werden. Dazu wurde u.a. eine
eigene Software, das Programm
"
GeneActivator" entwickelt. Dieses Tool w¨
ahlt aus der großen
Anzahl von Genen, wie sie bei DNA-Chip-Daten vorkommen, eine kleine Menge aus, von der
angenommen wird, dass sie besonders relevant f¨
ur die Bildung von Klassifikatoren ist. F¨
ur diese
Auswahl wurden verschiedene Verfahren implementiert. Zur Benutzung mit
"
GeneActivator"
mussten die Originaldaten in einem ersten Schritt umformatiert werden. Diese Vorgehensweise
und die Funktionsweise von
"
GeneActivator" werden umfassend dargestellt.
Die einzelnen GP-L¨
aufe werden in Kapitel 7 aufgef¨
uhrt. Dabei wird mit einfachen bin¨
aren Pro-
blemen begonnen, um die unterschiedlichen Genauswahlverfahren von
"
GeneActivator" zu te-
sten. Außerdem werden verschieden große Genmengen verwendet, um eine g¨
unstige Gr¨
oße zu
finden und so das Ph¨
anomen der ¨
Uberanpassung zu vermeiden. Mit den Erkenntnissen aus den
bin¨
aren Versuchen geht es danach weiter zu multiplen Entscheidungsproblemen. Da
"
Discipu-
lus" nur bin¨
are Klassifikatoren erzeugen kann, werden sogenannte One-Versus-All-Experimente
gemacht. Dies geschieht zun¨
achst auf einer relativ kleinen Menge mit nur 4 Klassen. Als letzter
Versuch wird dann eine Datenmenge mit 14 Klassen analysiert. Die Endergebnisse werden mit
den Ergebnissen der in Kapitel 5 vorgestellten Arbeiten verglichen.
Kapitel 8 fasst zum Abschluss die Erkenntnisse aus den verschiedenen Versuchen zusammen
und beschreibt m¨
ogliche Perspektiven f¨
ur die Zukunft. Dabei werden Ideen erl¨
autert, wie die
evaluierten Verfahren weiter verbessert werden k¨
onnten, um in der Praxis eingesetzt zu werden
und welche neuen Technologien dazu n¨
otig w¨
aren.
Der Anhang A enth¨
alt das komplette Handbuch zu der Software
"
GeneActivator". Im Anhang B
wird der Aufbau dieser Software erl¨
autert. Außerdem wird dort erkl¨
art, wie man das Programm
schnell um eigene neue Genauswahlverfahren erweitern kann. Anhang C beinhaltet schließlich
einige Hinweise zur Benutzung der beiliegenden Begleit-CD. Auf dieser CD befinden sich ne-
ben
"
GeneActivator" mit Quellcode und einem Auswertungsprogramm alle Daten in ihren un-
terschiedlichen Aufbereitungsformen (original, formatiert f¨
ur
"
GeneActivator", verkleinert f¨
ur
"
Discipulus"), sowie alle GP-L¨
aufe.

Kapitel 2
Biologische Grundlagen
2.1
Molekulare Genetik
2.1.1
Einf¨
uhrung und Geschichte der Genetik
Genetik bezeichnet allgemein die Lehre von der Vererbung. Hierzu z¨
ahlen verschiedene Unter-
disziplinen, wie die klassische Genetik nach Mendel, in der es um die Weitergabe von Merkmalen
bei der Fortpflanzung geht, oder die Populationsgenetik nach Hardy und Weinberg, bei der die
aufigkeiten bestimmter Merkmale in Populationen betrachtet werden. Eine wichtige Grundla-
ge f¨
ur die Arbeit mit DNA-Chips ist vor allem die molekulare Genetik. Bei diesem Zweig der
Biologie werden u.a. die chemischen Vorg¨
ange bei der Vererbung, die Wirkung von Erbfaktoren
auf die Merkmalsauspr¨
agung und die Regulation von Erbanlagen erforscht. Eine einzelne Erb-
anlage wird als Gen bezeichnet. Das Vorkommen eines bestimmten Gens in einem Organismus
oder auch das Zusammenwirken mehrerer Gene bewirkt die Auspr¨
agung eines ganz bestimmten
Merkmals, d.h. einer Eigenschaft, in einer oder mehreren Entwicklungsphasen. Die Gesamtheit
aller Gene in einem Lebewesen bildet das Genom und stellt den gesamten Bauplan dar.
Bei der Fortpflanzung wird dieser Bauplan an die Nachfolgegeneration weitergegeben. Bei Bak-
terien und einzelligen Lebewesen geschieht die Vermehrung durch Teilung, wobei das Genom
vorher in der sogenannten Mitose verdoppelt wird. H¨
oher organisierte Lebensformen verwen-
den ungeschlechtliche oder geschlechtliche Fortpflanzung zur Reproduktion. Im letzteren Fall
verschmelzen die m¨
utterliche und die v¨
aterliche Keimzelle zu einer undifferenzierten Einheit,
aus der sich durch viele Teilungen das entsprechende Individuum aus ausdifferenzierten Zellen
entwickelt. Wichtig ist, dass auch bei solchen mehrzelligen voll entwickelten Organismen in jeder
einzelnen Zelle dieselben Gene vorhanden sind, ganz gleich von welchem Organ die Zelle stammt.
Trotzdem erf¨
ullen Zellen aus verschiedenen Geweben verschiedene Aufgaben. Der Grund liegt
in der unterschiedlichen Expression der Gene, denn in einer Zelle sind, abh¨
angig von Aufgabe,
Entwicklungszustand und ¨
außeren Faktoren, nur bestimmte Gene aktiv. Die genaue Definition
von Genexpression wird noch erl¨
autert.
Es stellen sich die Fragen, was ein aktives Gen von einem nicht-aktiven Gen unterscheidet und
wie ein Gen ¨
uberhaupt eine bestimmte Funktion oder Eigenschaft einer Zelle bzw. eines ganzen
Individuums beeinflussen kann. Zur Beantwortung dieser Fragen war zun¨
achst das Verst¨
andnis
der chemischen Struktur grundlegend. Um 1909 fand man durch Beobachtung von Zellteilun-
gen heraus, dass die Erbfaktoren der eukaryontischen Organismen
1
auf den Chromosomen lie-
gen mussten. Man entdeckte, dass Chromosomen aus Proteinen und Nucleins¨
auren aufgebaut
1
Organismen, deren Zellen Zellkerne besitzen.

2.1 Molekulare Genetik
4
Abbildung 2.1: Die DNA-Doppelhelix: Guanin und Cytosin sowie Adenin und Thymin
liegen sich dabei immer gegen¨
uber. Die Struktur entsteht durch Wasser-
stoffbr¨
uckenbindungen zwischen den Basen (zwei bei A/T-Paaren und drei
bei G/C-Paaren) ([Hafner und Hoff 1984]).
sind. Aufgrund der hohen Variabilit¨
at von Proteinen und noch nicht vorhandener Kenntnisse
¨
uber Nucleins¨
auren wurde zun¨
achst vermutet, dass die Proteine das genetische Material bilden.
Erst im Jahre 1953 wurde nach vielen Experimenten allgemein anerkannt, dass Desoxyribo-
nucleins¨
auren (DNA) die Erbanlagen ausmachen.
2.1.2
Aufbau der DNA
Ein DNA-Molek¨
ul ist ein langes lineares Polymer, das aus vielen verketteten Monomeren auf-
gebaut ist. Einzelne Monomere eines DNA-Strangs werden Nucleotide genannt und bestehen
aus einem Zuckerbaustein, der 2´-Desoxyribose, einem Phosphorbaustein und einer stickstoff-
haltigen Base. Die Desoxyribose wird mit 2´ bezeichnet, da die Hydroxylgruppe am zweiten
Kohlenstoffatom durch einen Wasserstoffrest ersetzt wurde. Unterschiede zwischen den Nucleo-
tiden liegen in der Art der Base. Es kommen vier verschiedene m¨
ogliche Basen vor: Adenin
(A), Cytosin (C), Guanin (G) und Thymin (T). Verkn¨
upft sind die Nucleotide durch 3´-5´-
Phosphodiester-Bindungen, d.h. durch Verbindung der -Phosphatgruppe am 5´-Kohlenstoff
des einen Nucleotids mit dem 3´-Kohlenstoff des nachfolgenden Nucleotides. In der Abfolge die-
ser verkn¨
upften Monomere sind die Erbfaktoren codiert. DNA-Molek¨
ule k¨
onnen aus mehreren
Millionen Nucleotiden bestehen, wobei keine Einschr¨
ankungen in der Reihenfolge der Bausteine
vorkommen. Dies erm¨
oglicht eine riesige Variabilit¨
at, wodurch das Genmaterial fast unbegrenzt

2.1 Molekulare Genetik
5
Abbildung 2.2: Die chemische Struktur der 4 verschiedenen DNA-Basen: Cytosin und Thy-
min sind sogenannte Pyrimidinbasen, abgeleitet vom Pyrimidin, einem
Sechsring mit zwei Stickstoffatomen. Guanin und Adenin sind Doppelringe
und werden daher, abgeleitet vom Purin, auch als Purinbasen bezeichnet
([Hafner und Hoff 1984]).
viele Formen annehmen kann.
In den Zellen kommt DNA in den meisten F¨
allen nicht als einzelnes Polymer sondern in Form
von zwei verdrillten Polynucleotiden, der sogenannten Doppelhelix, vor. Diese Struktur wurde
1953 von Watson und Crick entschl¨
usselt. Dabei liegen die beiden Str¨
ange komplement¨
ar ne-
beneinander. Einer A-Base ist auf dem parallelen Strang eine T-Base und einer C-Base eine
G-Base zugeordnet (und umgekehrt). Diese Struktur wird durch Wasserstoffbr¨
uckenbindungen
zwischen den Basen gefestigt. In prokaryontischen Organismen
2
liegt die gesamte Erbinformation
auf einem ringf¨
ormigen DNA-Doppelhelix-Molek¨
ul. Bei den eukaryontischen Organismen befin-
den sich die Erbfaktoren auf einem oder mehreren langgezogenen DNA-Dopppelhelix-Str¨
angen.
Bei der Zellteilung spindeln sich diese Str¨
ange zu den Chromosomen auf und sind unter einem
Lichtmikroskop sichtbar. Die Str¨
ange wurden vorher verdoppelt, so dass jede der beiden neuen
Zellen die gesamte Information bekommt.
Nur anhand dieser Erbinformation wird bestimmt, wie eine Zelle w¨
achst, Stoffwechsel betreibt
und sich mit anderen Zellen organisiert. Der auf der DNA codierte Bauplan entscheidet, welche
Art von Lebewesen aus einer befruchteten Eizelle entsteht, wie aus einer undifferenzierten Zelle
ein bestimmtes Gewebe heranw¨
achst oder wie oft sich eine Zelle in einem Organismus teilt, bevor
die Zellteilung eingestellt wird. Das ph¨
anotypische, also sichtbare Ergebnis ist ein Individuum
bzw. eine funktionale Einheit eines Individuums (je nach betrachtetem Maßstab), das aus einer
großen Anzahl von Merkmalen besteht, die unterschiedlich ausgepr¨
agt sind. Die Farbe der Bl¨
uten
2
Einzeller ohne Zellkern.

2.1 Molekulare Genetik
6
Abbildung 2.3: Transkription: Die RNA-Polymerase fertigt durch Ablesen des codogenen
Stranges der DNA eine Kopie eines Genabschnitts an ([Hafner und Hoff
1984]).
von Erbsen, mit denen Mendel experimentierte, ist nur ein einfaches Beispiel daf¨
ur. In vielen
allen summieren sich Eigenschaften zu neuen Merkmalsauspr¨
agungen. Die Wirkung eines Gens
auf den Ph¨
anotyp ist also durch das Zusammenspiel mit anderen Genen sehr komplex.
2.1.3
Transkription
Was geschieht aber mit einem DNA-Strang? Die Forschungen haben zu folgender Erkennt-
nis gef¨
uhrt: Die Nucleotidsequenz ist eine Befehlsfolge zur Synthese von sogenannten Ri-
bonucleins¨
auren (RNA). RNA-Molek¨
ule unterscheiden sich in einigen Punkten von DNA-
Molek¨
ulen. So liegt eine RNA als einzelner Strang vor. Es gibt also nicht die DNA-typische
Doppelhelix. Der enthaltene Zucker ist Ribose anstelle von Desoxyribose und statt der Base
Thymin wird die Base Uracil (U) verwendet. Insgesamt ist RNA weniger stabil als DNA und
wird nach einiger Zeit im Zellplasma abgebaut.
Die Synthese der RNA erfolgt durch das Enzym RNA-Polymerase. Dabei wird die Doppelhe-
lix an einer bestimmten Startposition, die durch eine bestimmte Basenfolge gekennzeichnet ist,
aufgetrennt, und die Polymerase lagert sich an den sogenannten codogenen Strang der DNA an.
Die Bindungsstelle im Startbereich wird Promotor genannt. Der codogene Strang wird dann, be-
zogen auf die Kohlenstoffatome in der Dexoxyribose, in 5´-3´-Richtung abgelesen, w¨
ahrend die
passende RNA aufgebaut wird. Dieser Vorgang wird als Transkription bezeichnet. Da das En-
zym die Nucleotide der RNA nur in 5´-3´-Richtung verkn¨
upfen kann, kann der parallel liegende
Strang nicht verwendet werden. Dieser entspricht in seiner Folge der synthetisierten RNA, mit
der Ausnahme, dass bei RNA U statt T verwendet wird. Bei der Erzeugung der RNA wird also
eine komplement¨
are Kopie des codogenen Stranges hergestellt
3
. Die Polymerase lagert solange
3
ur eine A-Base auf der DNA wird eine U-Base zum RNA-Strang zugef¨
ugt (F¨
ur T wird A, f¨
ur C wird G und

2.1 Molekulare Genetik
7
Abbildung 2.4: Translation: An den Ribosomen wird der genetische Code mittels t-RNA-
Sequenzen entschl¨
usselt ([Hafner und Hoff 1984]).
die passenden RNA-Nucleotide an, bis eine Stopp-Position erreicht wird. Auch diese ist durch
eine bestimmte Folge gekennzeichnet. Eine solche durch
"
Start" und
"
Stopp" begrenzte Folge
stellt ein Gen dar. Auf einer Ring-DNA oder einem Chromosom k¨
onnen viele tausend Gene
codiert sein. Bei den Prokaryonten wird die RNA nach der Synthese sofort in das Plasma ent-
lassen, bei den Eukaryonten muss dagegen erst der Zellkern verlassen werden. Dieser Vorgang
ist relativ komplex, da hier durch sogenannte Spleiß-Enzyme bestimmte Teile aus den RNA-
Str¨
angen herausgeschnitten werden. Bei diesen Teilen handelt es sich um sogenannte Introns,
Teile, die im weiteren Prozess nicht ben¨
otigt werden. Durch das Spleißen werden die wichtigen
Teile, die sogenannten Exons miteinander verbunden. In manchen F¨
allen kommt es zu alternati-
vem Spleißen. Dabei werden die Abschnitte anders zusammengesetzt. Ursachen und Vorhersagen
ur alternatives Spleißen werden noch erforscht.
Die erzeugte RNA kann nun selbst in der Zelle eine Funktion ¨
ubernehmen oder sie dient als
Anweisungsfolge zur Synthese eines Proteins bei der sogenannten Translation. Im zweiten Fall
spricht man von messenger-RNA (m-RNA). Mit dieser m-RNA wird eine bestimmte Eigenschaft
realisiert, z.B. das Vorhandensein eines Enzym-Proteins, das einen ganz speziellen Stoff kataly-
sieren kann, oder der Aufbau einer besonderen Struktur innerhalb der Zelle zum beschleunigten
Ablauf bestimmter Vorg¨
ange. Insgesamt wird der Vorgang von der Abschrift der DNA hin zur
Auspr¨
agung von Zellstrukturen und Funktionen als Genexpression bezeichnet.
2.1.4
Translation
Im Plasma der Zellen und am rauen endoplasmatischen Reticulum, einem Transportsystem aus
Membranen um den Zellkern, befinden sich die sogenannten Ribosome. Diese, aus zwei Unter-
einheiten aufgebauten und u.a. aus RNA bestehenden Strukturen, sind der Ort der Proteinher-
stellung. Bei prokaryontischen und eukaryontischen Zellen unterscheiden sich die Ribosome ein
wenig im Aufbau, die Funktion ist aber gleich. Die ribosomale RNA ist ein Beispiel f¨
ur RNA,
welche nach der Synthese direkt verwendet wird.
Weitere f¨
ur die Synthese wichtige RNA-Molek¨
ule kommen im Zellplasma vor. Diese sogenann-
ten transfer-RNA (t-RNA) Molek¨
ule sind aus einem Strang aufgebaut, der eine ganz spezielle
ur G wird C zugef¨
ugt).

2.1 Molekulare Genetik
8
Raumstruktur besitzt. Durch Anlagerung des vorderen Teils an den hinteren Teil entsteht eine
Doppelstruktur, die an einigen Stellen Schleifen bildet, an denen die Basen nicht kompatibel
sind (A mit C oder G, U mit C oder G oder andersherum). Besonders wichtig ist der Teil,
der den Anfang und das Ende der RNA-Kette ausmacht. Hier lagert sich je nach t-RNA ei-
ne ganz spezifische Aminos¨
aure an. Die Proteine, die synthetisiert werden sollen, bestehen aus
solchen Aminos¨
auren, von denen es 20 verschiedene gibt und die sich auf Molek¨
ulebene nur
im sogenannten Rest unterscheiden. Ebenfalls wichtig ist die am anderen Ende des Molek¨
uls
befindliche Anticodon-Schleife. An dieser Stelle gibt es drei Basen, die spezifisch f¨
ur die angela-
gerte Aminos¨
aure am anderen Ende sind. Durch diese Spezifit¨
at der Anticodon-Schleife zu der
Aminos¨
aure wird an den Ribosomen der genetische Code entschl¨
usselt. Dieser Vorgang wird
Translation genannt. Dabei erreicht eine m-RNA ein Ribosom. Es werden dann die ersten drei
Erste
Base
Zweite
Base
U
C
A
G
U
U
Phenyl-
alanin
Phenyl-
alanin
Leucin
Leucin
C
Serin
Serin
Serin
Serin
A
Tyrosin
Tyrosin
"
Stop"
"
Stop"
G
Cystein
Cystein
"
Stop"
Trypto-
phan
C
U
Leucin
Leucin
Leucin
Leucin
C
Prolin
Prolin
Prolin
Prolin
A
Histidin
Histidin
Glutamin
Glutamin
G
Arginin
Arginin
Arginin
Arginin
A
U
Isoleucin
Isoleucin
Isoleucin
Methionin
(
"
Start")
C
Threonin
Threonin
Threonin
Threonin
A
Asparagin
Asparagin
Lysin
Lysin
G
Serin
Serin
Arginin
Arginin
G
U
Valin
Valin
Valin
Valin
C
Alanin
Alanin
Alanin
Alanin
A
Asparagin-
aure
Asparagin-
aure
Glutamin-
aure
Glutamin-
aure
G
Glycin
Glycin
Glycin
Glycin
Tabelle 2.1: Der genetische Code: Die Spalten 3-6 beschreiben jeweils die dritte Base. Auf
diese Weise l¨
asst sich ablesen, welche Aminos¨
aure bei der Translation einem
bestimmten Basentriplett zugeordnet wird.
Basen der m-RNA, also das erste Triplett betrachtet. Da es vier verschiedene Basen gibt, er-
geben sich f¨
ur ein Triplett, welches in diesem Zusammenhang auch Codon genannt wird, 64
oglichkeiten (4
3
). Hier kann sich nun eine ganz spezielle t-RNA anlagern und zwar eine solche,
die das passende Anticodon besitzt. Der Vorgang l¨
auft nach dem Schl¨
ussel-Schloss-Prinzip ab.
Beim zweiten Triplett wiederholt sich der Vorgang. An den anderen Enden der t-RNA-Molek¨
ule
befinden sich die spezifischen Aminos¨
auren. Diese Aminos¨
auren werden dann hydrolytisch, d.h.
unter dem Austreten von Wasser, gekoppelt. Das Vorgehen wird iteriert, bis die gesamte m-RNA
betrachtet wurde. Die dabei entstehende Aminos¨
aurekette bildet sich zu einer 3-dimensionalen
Raumstruktur aus, welche u.a. ihre Funktion festlegt. Ein Protein ist hergestellt worden. Der

2.1 Molekulare Genetik
9
Abbildung 2.5: Die Raumstruktur eines Proteins am Beispiel von H¨
amoglobin. Jedes Pro-
tein hat eine ganz bestimmte Raumstruktur, wodurch die Proteinfunktion
determiniert wird. Die Ausbildung dieser Struktur erfolgt ¨
uber Wechsel-
wirkungen zwischen den Aminos¨
auren ([Hafner und Hoff 1984]).
Prozess der Transkription und Translation zur Herstellung eines Proteins wird daher auch Pro-
teinbiosynthese genannt.
Die Aufgaben des Proteins k¨
onnen sehr unterschiedlich sein. Grunds¨
atzlich kann man zwischen
zwei verschiedenen Arten von Proteinen unterscheiden. Strukturproteine lassen St¨
utzstrukturen
entstehen und bilden das Ger¨
ust f¨
ur Zellorganellen oder die Zelle selbst, w¨
ahrend Enzymproteine
(oder kurz Enzyme) Reaktionen katalysieren und so die Stoffwechselvorg¨
ange in den Zellen erst
erm¨
oglichen. Zwar sind viele dieser Vorg¨
ange grunds¨
atzlich auch ohne Enzyme m¨
oglich; Enzyme
erh¨
ohen jedoch die Geschwindigkeit um ein Vielfaches und setzen die f¨
ur die Reaktionen ben¨
otig-
te Aktivierungsenergie herab. Dabei gehen sie selbst nicht mit in die Reaktion ein. Enzyme sind
Substrat- (Ausgangsprodukt) und Endprodukt-spezifisch und in ihrer Funktion abh¨
angig von
verschiedensten Faktoren, wie bestimmten positiven oder negativen Effektoren, sowie ¨
außeren
Einfl¨
ussen, wie Temperatur oder pH-Wert. An dieser Stelle soll erw¨
ahnt werden, dass es auch
Enzyme mit Nicht-Protein-Anteil gibt. Ihr Aufbau ist etwas komplexer.
Interessant ist die Verwendung von Tripletts beim genetischen Code. Mit ihnen k¨
onnten 64 Ami-
nos¨
auren unterschieden werden. Da aber nur 20 Aminos¨
auren existieren, und nur 2 Tripletts f¨
ur
Start und Stopp ben¨
otigt werden, erh¨
alt der Code eine gewisse Redundanz, was ihn weniger
anf¨
allig gegen Mutationen macht. Speziell die dritte Base hat eine geringere Bedeutung (siehe
Tabelle 2.1). Hier sind Mutationen oft wirkungslos, weshalb sie auch als
"
wobble-Base" bezeich-
net wird. Vor langer Zeit gab es vermutlich zuerst Paare, die sich im Laufe der Evolution zu den
Tripletts entwickelt haben. Mit Paaren k¨
onnen nur 16 verschiedene Symbole codiert werden.
2.1.5
Regulation der Genexpression
Besonders wichtig f¨
ur die Analyse von DNA-Chips sind Kenntnisse ¨
uber Regulationsmechanis-
men der Genaktivit¨
at, denn jede Zelle eines Individuums besitzt dasselbe Genom. Wenn st¨
andig
alle Gene f¨
ur die Synthese von RNA-Sequenzen verwendet werden w¨
urden, dann h¨
atte sich das
Leben kaum zu einer so hohen Organisationsstufe entwickeln k¨
onnen, wie sie heute vorhanden ist.
Vermutlich w¨
are die Evolution ohne Regulation auf dem Stand einfacher Stoffzyklen stehenge-
blieben. Man hat herausgefunden, dass es f¨
ur die Aktivit¨
atssteuerung verschiedene Mechanismen
gibt, die z.B. ¨
uber Hormone funktionieren. Ein beliebtes Modell, mit der man die Regulation
der Genaktivit¨
at erkl¨
aren kann, ist das sogenannte Operon-Modell nach Jacob und Monod. Es

2.1 Molekulare Genetik
10
Abbildung 2.6: Lactose-Operon: Schema A zeigt den Operator in blockiertem Zustand,
d.h. es erfolgt keine Proteinsynthese. In Schema B wurde der Repressor
durch die Lactose deaktiviert, wodurch die Enzyme z, y und a f¨
ur den
Lactoseabbau synthetisiert werden k¨
onnen ([Hafner und Hoff 1984]).
Abbildung 2.7: Tryptophan-Operon: Schema A zeigt den Operator A im aktiven Zustand
(Repressor inaktiv), so dass die Enzyme S
1
bis S
5
ur den Aufbau von Tryp-
tophan synthetisiert werden k¨
onnen. Tryptophan kann nun den Repressor
aktivieren, wodurch die Synthese unterbrochen wird. Dieser Zustand ist in
Schema B dargestellt ([Hafner und Hoff 1984]).
eignet sich gut f¨
ur Produktionsketten, bei denen aus einem Ausgangsprodukt durch Umwand-
lung ¨
uber mehrere Enzyme ein Endprodukt erzeugt wird. Viele Besonderheiten bei konkreten
allen lassen sich mit diesem Modell erkl¨
aren.
Um zu verhindern, dass ein Gen abgelesen wird, muss es blockiert werden. Dies geschieht mit
einem bestimmten Protein, das der DNA im Bereich des Operators, einer spezifischen Bindungs-
stelle hinter dem Promotor, aufsitzt und so die Transkription verhindert. Dieses Protein wird
als Repressor bezeichnet. Codiert ist ein Repressor entweder auf einem DNA-Abschnitt mit ei-
ner generell niedrigen Affinit¨
at f¨
ur die Anlagerung von RNA-Polymerase, so dass keine weiteren
Mechanismen ben¨
otigt werden, oder die Produktion ist an andere Regelkreise gekoppelt.

2.2 Krebserkrankungen
11
Bei Stoffwechselketten gibt es h¨
aufig eine Folge von mehreren Enzymen, die hintereinander auf
der DNA codiert sind. Vor dieser Folge befindet sich der Operator, der durch einen Repressor
blockiert sein kann. Im Falle des Abbaus von Lactose vermutet man z.B. einen aktiven Repres-
sor, der erst durch die Lactose selbst inaktiv wird. Ein Lactose-Molek¨
ul bindet sich dabei nach
dem Schl¨
ussel-Schloss-Prinzip an den Repressor, ver¨
andert dadurch dessen Raumstruktur und
sorgt daf¨
ur, dass er sich von der DNA l¨
ost und somit die dahinterliegenden Gene zur Abschrift
frei gibt. Diese Gene codieren Enzyme f¨
ur den Lactoseabbau. Wenn die Lactose abgebaut wor-
den ist, wird der Repressor wieder aktiv und keine weiteren Enzyme k¨
onnen mehr hergestellt
werden. Die vorhandenen Enzyme werden nach und nach abgebaut. In diesem Fall induziert die
Lactose ihren eigenen Abbau. Man spricht daher allgemein von Substratinduktion. Diese eignet
sich offensichtlich gut f¨
ur abbauenden Stoffwechsel. Ein anderes Beispiel ist das Tryptophan-
Operon. Dabei wird ¨
uber mehrere Zwischenprodukte Tryptophan erzeugt. Der Repressor ist
dabei zun¨
achst inaktiv. Erst das Endprodukt aktiviert den Repressor durch Ver¨
anderung sei-
ner Raumstruktur und sorgt daf¨
ur, dass keine weiteren Enzyme zur Tryptophan-Produktion
mehr aufgebaut werden k¨
onnen. Diese Variante der Regulation wird als Endproduktregression
bezeichnet. Man findet sie h¨
aufig bei aufbauendem Stoffwechsel.
Denkbar sind weitere Regulationsmechanismen, etwa die Aktivierung oder Deaktivierung durch
bestimmte Hormone. Da bestimmte Enzyme bzw. allgemein Proteine in manchen F¨
allen h¨
aufig
gebraucht werden, vermutet man, dass solche mehrfach auf der DNA codiert sind. Dies erweitert
das Prinzip des Operon-Modells. Die Realit¨
at ist vermutlich noch wesentlich komplexer, da
Wechselwirkungen zwischen den verschiedenen Stoffen auftreten k¨
onnen.
Eine umfassendere Einf¨
uhrung in die Genetik befindet sich in [Hafner und Hoff 1984]. Umfang-
reichere und tiefer gehendere Einf¨
uhrungen befinden sich in den B¨
uchern [Brown 1999] und
[Knippers 1995].
2.2
Krebserkrankungen
2.2.1
Krebsarten und Ursachen
Krebs ist eine Krankheit, von der fast jeder Mensch direkt oder indirekt betroffen ist. Statistisch
gesehen wird bei einer von drei Personen im Laufe ihres Lebens ein b¨
osartiger Tumor diagno-
stiziert. Dabei muss klar zwischen gutartigen und b¨
osartigen Tumoren differenziert werden. Der
Begriff
"
Tumor" stammt aus dem Griechischen und bedeutet
"
Verh¨
artung". Man spricht jedoch
nur bei b¨
osartigen Tumoren von Krebs, was bei ca. 10% aller Tumore der Fall ist. In den Indu-
striel¨
andern gehen 15% bis 20% aller Todesf¨
alle auf das Konto von Krebserkrankungen. Damit
ist Krebs die zweith¨
aufigste Todesursache nach den Herz-Kreislauf-Erkrankungen.
Unterschieden werden muss allerdings zwischen verschiedenen Krebsarten. Im allgemeinen
Sprachgebrauch wird Krebs zwar oft wie eine einzige Krankheit behandelt, jedoch gibt es ¨
uber
100 verschiedene Formen, die sich zum Teil stark in Ausbreitungsgeschwindigkeit, Behandlungs-
methoden, H¨
aufigkeit und Mortalit¨
at unterscheiden. Eingeteilt werden die Typen meistens nach
befallenem Organ und der Art der befallenen Zellen. Eine grobe Einteilung ist die Unterschei-
dung von Karzinomen, Sarkomen, Leuk¨
amien und Lymphomen. Karzinome sind b¨
osartige Tu-
more aus epithelialen Zellen. Beispiele sind Lungen-, Brust- oder Dickdarmkrebs. Allein diese
drei Erkrankungen machen schon ca. 50% aller Krebstodesf¨
alle aus. Sarkome sind im Gegensatz
zu Karzinomen Tumore des Bindegewebes. Bei Leuk¨
amien und Lymphomen entarten die blut-
bildenden Zellen des Knochenmarks und der Lymphknoten. Bei diesen Formen ist kein lokaler
Tumor vorhanden ([Cairns 1990a]). Grunds¨
atzlich kann Krebs ¨
uberall entstehen. Neben den am

2.2 Krebserkrankungen
12
Abbildung 2.8: Gesundes (weibliches) Brustgewebe besteht aus Dr¨
usen, Fett, Bindege-
websb¨
andern und Milchg¨
angen. B¨
osartige Tumore bilden sich meistens im
Dr¨
usengewebe. Man spricht dann von Adenokarzinomen ([Cairns 1990a]).
Abbildung 2.9: Gutartige Brusttumore k¨
onnen zwar schnell wachsen und auch recht groß
werden, sie sind jedoch ungef¨
ahrlich, da sie ihr Ursprungsgewebe nicht
verlassen ([Cairns 1990a]).
meisten verbreiteten Karzinomen gibt es auch sehr seltene und ungew¨
ohnliche Arten, wie z.B.
die Teratokarzinome. Bei diesem Typ sind undifferenzierte Zellen, also Eizellen oder Spermien,
betroffen. Der sich ausbreitende Tumor differenziert sich dabei teilweise scheinbar willk¨
urlich
zu verschiedenen Gewebeformen. Teratokarzinome sind Gebilde aus Nerven, Muskeln, Dr¨
usen,
ahnen und Haaren ([Illmensee und Stevens 1990]).
Ausgangspunkt jeder Krebserkrankung ist eine einzelne Zelle, die durch einen bestimmten Ein-
fluss entartet und zu einer b¨
osartigen Zelle transformiert. Sie beginnt sich dann zu teilen und
der wachsende Zellhaufen zerst¨
ort das umliegende Gewebe. Dieses Wachstum kann sehr un-
terschiedlich verlaufen. Bei manchen Formen breitet sich der befallene Bereich nur langsam in
angrenzende Gewebe aus. Rechtzeitig entdeckt, k¨
onnen Patienten meistens durch Operationen,

2.2 Krebserkrankungen
13
Abbildung 2.10: Ein b¨
osartiger Brusttumor (Brustkrebs) bef¨
allt das gesamte Dr¨
usenge-
webe und auch die umliegenden Gewebe. ¨
Uber das Blut und das lym-
phatische System kann der Krebs metastasieren, wodurch viele dieser
Erkrankungen t¨
odlich enden ([Cairns 1990a]).
gezielte Bestrahlungen oder Zugabe von Zytostatika (Chemotherapie) bzw. durch Kombination
der Faktoren gerettet werden. Andere Formen wachsen jedoch sehr schnell und k¨
onnen auch weit
entfernte Organe befallen. Diese Bildung von Tochtergeschwulsten, sogenannten Metastasen, ge-
schieht durch Verteilung b¨
osartiger Zellen ¨
uber den Blutkreislauf. Aus diesem Grund verlaufen
viele Krebserkrankungen t¨
odlich, vor allem dann, wenn lebenswichtige oder schwer zug¨
angliche
Organe betroffen sind. Wie sich der Tumor verh¨
alt, ist dabei nicht von seiner Gr¨
oße, sondern
nur von seiner molekularen Struktur abh¨
angig. Es gibt winzige Tumore, die bereits Metasta-
sen bilden und riesige Tumore, die das nicht tun. Vorsorgeuntersuchungen sind daher nur bei
bestimmten Krebsarten anwendbar ([Cairns 1990a]).
Die Ausl¨
oser f¨
ur die Transformierung einer gesunden Zelle zu einer b¨
osartigen sind nach heuti-
gen Erkenntnissen sehr verschieden. Man unterscheidet zwischen physikalischen, chemischen und
biologischen Faktoren. Zu den physikalischen Einfl¨
ussen z¨
ahlen -, -, -, R¨
ontgen- und UV-
Strahlen. Chemische Ausl¨
oser sind bestimmte anorganische Stoffe, wie Arsen, Asbest, Chrom
oder Nickel, und manche organische Substanzen, z.B. polyzyklische Kohlenwasserstoffe, aroma-
tische Amine, Nitrosamine und vermutlich auch das in letzter Zeit h¨
aufig diskutierte Acrylamid.
ur manche Krebsarten, von denen bestimmte Tierarten betroffen sind, werden bestimmte Viren
verantwortlich gemacht. Diese Viren sind biologische Ausl¨
osefaktoren. Ein krebserregender Fak-
tor kann die DNA so sch¨
adigen, dass bestimmte Zellfunktionen durch ver¨
anderte Genexpression
umorganisiert werden, z.B. durch Ver¨
anderung einer einzigen Base ([Cairns 1990a]).
Kritisch wird dies offensichtlich bei den Genen, welche die Zellteilung oder den Zelltod codieren.
Normalerweise teilen sich menschliche Zellen nur etwa 50 mal, z.B. um bestimmte Gewebe
zu erneuern. Bestimmte Zellen teilen sich sogar ¨
uberhaupt nicht mehr. Außerdem gibt es bei
gesundem Gewebe die sogenannte Kontakthemmung. Wenn eine Zelle eine andere ber¨
uhrt, h¨
ort
sie auf sich zu vermehren. In bestimmten F¨
allen ist auch das kontrollierte Absterben von Zellen
vorgesehen. Wenn aber durch Mutation der DNA das Zellwachstum nicht mehr unter Kontrolle
ist und der Zelltod unterdr¨
uckt wird ([Evan und Vousden 2001]), kann es passieren, dass sich
die betroffene Zelle immer wieder teilt. Diese F¨
ahigkeit scheint unbegrenzt zu sein; so k¨
onnen

2.2 Krebserkrankungen
14
Abbildung 2.11: Modell der Krebsentstehung (Karzinogenese): In jeder Zelle verhindern
mehrere unabh¨
angige Gene die Entartung. Erst nach einer Reihe von
Mutationen kann die Zelle transformieren. Dabei entsteht dann entweder
ein gutartiger Tumor oder in manchen F¨
allen eine b¨
osartige Geschwulst,
die auch metastasieren kann. In vielen F¨
allen bildet sich die Krebsvorstufe
jedoch wieder zur¨
uck ([Cairns 1990a]).
z.B. Labore noch sehr lange mit kultivierten Krebszellen arbeiten, da sich diese immer weiter
vermehren. Durch das unkontrollierte Wachstum bildet sich ein Tumor, denn alle Zellen, die aus
der Ursprungzelle hervorgehen, tragen ebenfalls die ver¨
anderte DNA in sich und haben somit
auch dasselbe Programm. Solche Krebszellen besitzen keine Kontakthemmung, vermutlich durch
eine ver¨
anderte Zellmembran. Dadurch breiten sich ungeordnete, b¨
osartige Zellhaufen aus. Eine
solche Ausbreitung findet aber wahrscheinlich nur bei ganz bestimmten Mutationen der DNA
statt. In vielen F¨
allen wird die Ursprungszelle einfach absterben ([Devoret 1990; Hafner und
Hoff 1984]).
2.2.2
Schutz und Reparaturfunktionen der Zellen
Offensichtlich f¨
uhrt nicht jede Mutation zu Krebs. M¨
oglicherweise hat jede Zelle bestimmte
Schutzgene, auf denen Enzyme codiert sind, die leichte Sch¨
aden reparieren k¨
onnen und so Tu-
morwachstum verhindern. Erst wenn alle Schutzgene selbst besch¨
adigt worden sind, kann die
Zelle außer Kontrolle geraten. Hinweise darauf liefern u.a. Statistiken, bei denen der Einfluss
von Karzinogenen auf die Todesrate ¨
uber die Zeit betrachtet wird. Das wichtigste Karzinogen
ur Lungenkrebs sind bestimmte Stoffe im Zigarettenrauch. Das Risiko f¨
ur Raucher an Lungen-

2.2 Krebserkrankungen
15
Abbildung 2.12: Exzisionsreparatur der DNA: U vrA- und U vrB-Proteine binden sich an
die besch¨
adigte Stelle (1) und trennen die DNA mit Hilfe von U vrC-
Proteinen auf (2). Die DNA-Polymerase kann dann neue Nucleotide ent-
sprechend dem unbesch¨
adigten Strang anf¨
ugen (3). Das alte St¨
uck wird
komplett entfernt und die Schnittstelle durch DNA-Ligase versiegelt (4)
([Howard-Flanders 1990]).
krebs zu sterben ist je nach Konsum 10 bis 50 mal gr¨
oßer als bei Nichtrauchern. Die H¨
aufigkeit
von Lungenkrebsf¨
allen bei M¨
annern stieg aber erst 20 Jahre nach dem Anstieg des Zigaretten-
konsums zu Beginn des 20. Jahrhunderts an. Dieser Anstieg begann bei Frauen wiederum ca.
20 Jahre sp¨
ater, da das Rauchen bei Frauen erst sp¨
ater popul¨
ar wurde. Ein Hinweis darauf,
dass Zellen Schutzfunktionen haben, die jedoch einmal zerst¨
ort, nicht wieder hergestellt werden
onnen, liefern bestimmte Statistiken. So ist z.B. das Lungenkrebsrisiko f¨
ur einen ehemaligen
Raucher, der beispielsweise 10 Jahre geraucht hat, jedoch seit 20 Jahren nicht mehr raucht,
genauso groß, wie bei einem Raucher, der seit 10 Jahren raucht (bei gleichem Konsum). Zur
Ursachenforschung bei Krebsf¨
allen darf also nicht nur die j¨
ungste Vergangenheit von Patienten
betrachtet werden ([Cairns 1990a]).
Reparaturfunktionen der DNA, die von bestimmten Enzymen realisiert werden, wurden bei ei-

2.2 Krebserkrankungen
16
nem bestimmten Fehler in der Erbinformation, den Pyrimidin-Dimeren, beobachtet. Dabei sind
zwei benachbarte Thymin-Molek¨
ule oder ein Thymin und ein Cytosin-Molek¨
ul miteinander ver-
bunden. Die Bindungen zu den gegen¨
uberliegenden Basen sind an diesen Stellen aufgehoben.
Eine Polymerase kann in solchen Bereichen keine Kopien machen. Ausgel¨
ost werden diese Fehler
durch UV-Licht und sind daher h¨
aufig in Hautzellen zu finden. F¨
ur gesunde Menschen stellen
solche Ver¨
anderungen kein Problem dar, da die schadhaften Abschnitte durch Enzyme heraus-
geschnitten werden und mit Hilfe von DNA-Polymerase, DNA-Ligase und der Information auf
dem parallel liegenden gesunden Strang neu gebildet werden. Dieser Reparaturvorgang wird
auch Exzisionsreparatur genannt.
Eine Erg¨
anzung zu diesem Vorgang ist die Postreplikationsreparatur, die dann auftritt, nachdem
die DNA im Bereich von besch¨
adigten Abschnitten verdoppelt wurde. Der Teil des besch¨
adigten
Stranges ist danach im Fehlerbereich nicht parallel. Dies wird jedoch mit verschiedenen Enzy-
men behoben. Bei Menschen mit der Lichtschrumpfhaut-Krankheit (Xeroderma pigmentosum)
bleiben Pyrimidin-Dimere aufgrund eines genetischen Defektes bestehen. Diese Menschen be-
kommen schon im niedrigen Alter Hautkrebs, offenbar dann, wenn bestimmte Gene betroffen
sind. Entdeckt wurden die Reparaturvorg¨
ange bei Experimenten mit bestimmten Bakterien-
und Phagenmutanten, die man durch Bestrahlung erzeugt hat. So konnten auch bestimmte
Gene ausgemacht werden, die f¨
ur die Reparaturaufgaben notwendig sind. Es sind mittlerweile
weitere Reparaturmechanismen bekannt, z.B. zur Beseitigung von Sch¨
aden durch Methylierung
von Guaninbasen ([Devoret 1990; Howard-Flanders 1990]).
2.2.3
Onkogene
Wie k¨
onnen offenbar zuf¨
allige Ver¨
anderungen, wie beispielsweise Pyrimidin-Dimere oder auch
Vertauschungen von Basen, Krebs ausl¨
osen? Da die einzelnen Gene Proteine codieren, hat ei-
ne Mutation Einfluss auf die Raumstruktur und die chemischen Eigenschaften der betroffenen
Proteine. Bestimmte Reaktionen verlaufen dadurch langsamer, schneller oder gar nicht, oder es
kommt zu v¨
ollig neuen Reaktionen. Ganz bestimmte Ver¨
anderungen m¨
ussen so gravierend sein,
dass sich die Zelle in eine b¨
osartige Krebszelle umwandelt. Da aber die meisten Krebserkran-
kungen normalerweise einer bestimmten Klasse zugeordnet werden k¨
onnen, kann es gar nicht so
viele verschiedene M¨
oglichkeiten zur Transformation geben ([Bishop 1990]).
Versuche mit Retroviren haben die Existenz sogenannter Onkogene (Krebsgene) nachgewiesen.
Retroviren sind Viren, deren Erbinformation nicht aus DNA sondern aus RNA besteht. Nach-
dem ein Retrovirus eine Zelle befallen hat, wird von der RNA eine DNA-Kopie erstellt. Diese
wird dann in die Erbinformation der Zelle eingebaut. Auf diese Weise werden dann durch Gen-
expression neue Viren hergestellt. Die meisten Retroviren sind sogar harmlos, da sie die Zellen
nicht zerst¨
oren. Man hat nun das Rous-Sarkom-Retrovirus untersucht, welches bei H¨
uhnern
Sarkome verursacht. Steven Martin hatte 1970 eine temperaturabh¨
angige Mutante des Rous-
Sarkom-Virus geschaffen, die bei kultivierten Zellen nur bis zu einer bestimmten Temperatur
ur eine Transformation der Zellen sorgt. Bei zunehmender Temperatur bildeten sich die Tumor-
zellen wieder zu normalen Zellen zur¨
uck. Durch Vergleich der Vorg¨
ange bei unterschiedlichen
Temperaturen konnte durch verschiedene Versuche das Gen ermittelt werden, das f¨
ur das Tu-
morwachstum verantwortlich ist. Die Aktivit¨
at dieses einzelnen Gens reicht hier f¨
ur die Bildung
eines Sarkoms. Dieses sogenannte src-Gen ist jedoch erstaunlicherweise in fast jedem Wirbel-
tiergenom nahezu identisch vorhanden. Die Fragen waren, wieso das Gen ¨
uber den Retrovirus
Krebs ausl¨
ost, ansonsten aber offenbar harmlos ist, und wieso solche
"
gef¨
ahrlichen" Gene in der
Evolution nicht aussortiert worden sind ([Bishop 1990; Weinberg 1990]).
Es wird vermutet, dass das src-Gen irgendwann in der Evolution von einem Wirbeltier aufgenom-

2.2 Krebserkrankungen
17
Abbildung 2.13: Postreplikationsreparatur: Bei der Replikation der DNA k¨
onnen soge-
nannte postreplikative L¨
ucken entstehen, wenn ein Dimer im Elternstrang
zur¨
uckgeblieben ist (und nicht vor der Replikation durch Exzisionsre-
paratur beseitigt wurde). Das RecA-Protein kann die Information auf
dem Schwesterdoppelstrang nutzen, um die L¨
ucke zu schließen ([Howard-
Flanders 1990]).

2.2 Krebserkrankungen
18
Abbildung 2.14: Wirkung der Genexpression: Durch Karzinogene erfolgt eine Ver¨
anderung
an einem Wachstumsgen bzw. an den entsprechenden Regulationsgenen,
wodurch die Genexpression unangemessen ver¨
andert wird. Das beteiligte
Gen wird zum krebsinduzierenden Onkogen ([Bishop 1990]).
men und seitdem weitergegeben wurde. Bei Versuchen mit St¨
ammen anderer Retroviren wurden
weitere Onkogene ermittelt, von denen einige auch im Verdacht stehen, beim Menschen Krebs
auszul¨
osen. Von allen Onkogenen fand man nahezu identische Versionen, die zum Genom vieler
Arten geh¨
oren. Diese Versionen werden auch als Proto-Onkogene bezeichnet. Das Proto-ras-Gen
findet man z.B. u.a. beim Menschen und auch bei Hefezellen. Diese Tatsache deutet darauf hin,
dass Onkogene fr¨
uh in der Evolution entstanden sind und sich bis heute kaum ver¨
andert haben.
Man vermutet daher, dass ihre eigentlichen Aufgaben bestimmte Schl¨
usselfunktionen sind und
erst leichte Ver¨
anderungen ihrer Struktur oder Fehler in ihrer Regulation zur Transformation
der Zellen f¨
uhren ([Bishop 1990; Weinberg 1990]).
Mit Hilfe von Antik¨
orperreaktionen gelang es, das Protein zu ermitteln, welches vom src-Gen
codiert wird. Dieses Phosphoprotein mit einem Molekulargewicht von 60000 wurde mit pp60r-
src bezeichnet. Man fand heraus, dass pp60r-src als Enzym der Klasse der Protokinasen wirkt
und Phosphat-Ionen an die Aminos¨
aure Tyropsin bindet. Man konnte bestimmte m¨
ogliche An-
griffsziele dieses h¨
aufig in den Plasmamembranen sitzenden Enzyms ermitteln. So sorgen die
Reaktionen u.a. vermutlich daf¨
ur, dass die Zellen schlechter aneinander haften. Dies ist eine cha-
rakteristische Eigenschaft von Krebszellen. Es muss jedoch weitere Eigenschaften geben. M¨
ogli-
cherweise sind die Proteine von Krebsgenen so beschaffen, dass sie sehr verschiedene Reaktionen
katalysieren k¨
onnen und so den normalen Signalfluss in den Zellen erheblich st¨
oren. So wirken
sie vermutlich auch auf die Wachstumsfaktoren der Zellen. Die verschiedenen Onkogene sind
dabei einander recht ¨
ahnlich. Viele von ihnen codieren Protokinasen. Man vermutet, dass von

2.2 Krebserkrankungen
19
den 30000 Erbfaktoren des menschlichen Genoms weniger als 100 Gene Proto-Onkogene sind
([Bishop 1990; Hunter 1990; Weinberg 1990]).
Die von den Krebsgenen synthetisierten Proteine konnten jedoch auch in gesunden Zellen nach-
gewiesen werden. M¨
oglicherweise reichen hier kleine Fehler in der Raumstruktur der Enzyme,
um eine Transformation auszul¨
osen. Diese Fehler k¨
onnen durch die bekannten krebsausl¨
osenden
Agentien verursacht werden. Eine andere Ursache f¨
ur die Transformation kann ein Fehler in der
Regulation sein. So wurde bei Tumoren, die vom Rous-Sarkom-Virus induziert wurden, eine viel
ohere Konzentration von pp60r-src nachgewiesen als bei gesunden Zellen. Interessanterweise
fand man auch St¨
amme von anderen krebsausl¨
osenden Retroviren, die keine Krebsgene besitzen.
Eine Theorie besagt, dass die von diesen Viren erzeugte DNA an einer Stelle in die DNA der
Zelle eingebaut wird, die sich vor einem Proto-Onkogen befindet. Da die Genaktivit¨
at im Ab-
schnitt des Retrovirus sehr hoch ist, wird auch das Enzym des Proto-Onkogens in hohem Maße
produziert. Die Regulation wird umgangen und die Zelle transformiert aufgrund einer ¨
Uberdosis.
Offenbar sind die Entartungen dieser speziellen Gene bzw. ihrer Regulation so entscheidend, weil
sie wichtige Aufgaben haben. Sie haben offenbar Einfluss auf die Kontrolle des Zellwachstums,
der Zelldifferenzierung, des Zelltodes und auf die Embryonalentwicklung ([Bishop 1990; Evan
und Vousden 2001; Hunter 1990; Weinberg 1990]).
Heute sind noch l¨
angst nicht alle Mechanismen bekannt, die speziell beim Menschen zu Krebs
uhren. Man weiß aber, dass fast immer mehrere Gene durch Mutation ver¨
andert werden m¨
ussen,
so dass die gerade aufgef¨
uhrten Funktionen nicht mehr korrekt ablaufen k¨
onnen. Da sich DNA-
Sch¨
adigungen im Laufe der Zeit ansammeln, ist Krebs eine Krankheit, deren Wahrscheinlichkeit
mit zunehmendem Alter ansteigt. Bei einigen Krebsarten, z.B. bei Dickdarmkrebs lassen sich
verschiedene Stadien hin zu einem Karzinom erkennen. W¨
ahrend dieses Prozesses mutieren dabei
nacheinander 8-10 Gene ([Knippers 1995]). Um jedoch alle Prozessketten und Regelkreise bei
Krebs zu verstehen, ist noch viel Forschung notwendig. DNA-Chips stellen dabei ein geeignetes
Hilfsmittel dar, da damit die Genexpression vieler verschiedener Gene untersucht werden kann.

Kapitel 3
DNA-Chips
3.1
Aufbau und Anwendung von DNA-Chips
3.1.1
Motivation
In Zellen laufen viele komplexe Vorg¨
ange gleichzeitig ab. Es werden Stoffe synthetisiert, andere
Stoffe werden zur Energiegewinnung abgebaut, es findet Kommunikation zwischen der Zello-
berfl¨
ache und dem Kern statt, es werden in bestimmten Phasen Teilungsvorg¨
ange durchgef¨
uhrt
und vieles mehr. Diese Prozesse unterliegen dabei verschiedenen Regulationsmechanismen, zu-
dem sind viele Abl¨
aufe auch voneinander abh¨
angig bzw. k¨
onnen Einfluss aufeinander nehmen.
Zusammengefasst stellt eine Zelle einen bestimmten Ph¨
anotyp dar. Ein wichtiger Faktor zum
Verst¨
andnis eines solchen biologischen Automaten ist die Erforschung der Genaktivit¨
at. Zellen
uhren Aufgaben aus und k¨
onnen dabei auf bestimmte Umwelteinfl¨
usse reagieren. Das Pro-
gramm daf¨
ur ist in den Genen gespeichert. Bei der Ausf¨
uhrung werden durch Genexpression
die Molek¨
ule erstellt, die f¨
ur die Aufgaben und ihre Regulation ben¨
otigt werden, sei es f¨
ur
Prozesse innerhalb der Zelle oder f¨
ur die Kooperation mit anderen Zellen innerhalb eines Orga-
nismus. Durch Bestimmung der Genexpression unter bestimmten Einflussfaktoren k¨
onnen dann
uckschl¨
usse auf die Aufgaben der Gene gezogen werden. Daraus ergeben sich auch weitere
oglichkeiten, wie die Bestimmung von Gewebe. Außerdem k¨
onnen Erkrankungen wie Krebs
diagnostiziert werden, da diese Gruppe von Krankheiten, wie im vorherigen Kapitel erl¨
autert,
direkt auf Ver¨
anderungen einzelner Gene zur¨
uckgef¨
uhrt werden kann.
3.1.2
Funktionsweise, Typen und Herstellung
Ein Mittel zur Bestimmung der Genexpression sind die DNA-Chips, auch DNA-Array, Biochip
oder Genchip genannt. Diese Chips erm¨
oglichen einen Schnappschuss der Genaktivit¨
at innerhalb
eines untersuchten Gewebes. Dazu werden die H¨
aufigkeiten der verschiedenen messenger-RNA-
Molek¨
ule gemessen. Wenn ein bestimmtes Protein in großer Anzahl ben¨
otigt wird, dann werden
durch Transkription am entsprechenden Gen-Abschnitt viele mRNA-Str¨
ange erzeugt, um eine
rasche Proteinsynthese zu erm¨
oglichen. W¨
ahrend dieser Zeit ist die Expression des betroffenen
Gens also relativ hoch, w¨
ahrend die Expression bei inaktiven Genen bei Null liegt. Trotzdem
onnen auch dann noch passende mRNAs vorkommen, da diese ja einige Zeit erhalten blei-
ben. DNA-Chips erm¨
oglichen die gleichzeitige Untersuchung vieler tausend Gene. In einigen
Jahren wird man wahrscheinlich sogar ¨
uber Chips verf¨
ugen, mit denen das gesamte menschli-
che Genom auf einen Blick betrachtet werden kann. Mit den DNA-Chips steht ein m¨
achtiges

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2003
ISBN (eBook)
9783832477240
ISBN (Paperback)
9783838677248
DOI
10.3239/9783832477240
Dateigröße
3.3 MB
Sprache
Deutsch
Institution / Hochschule
Technische Universität Dortmund – Informatik
Erscheinungsdatum
2004 (Februar)
Note
1,0
Schlagworte
bioinformatik krebs genexpression microarray programmierung
Zurück

Titel: Klassifikation von Tumoren mit GP-basierter DNA-Chip-Analyse
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
book preview page numper 26
book preview page numper 27
book preview page numper 28
135 Seiten
Cookie-Einstellungen