Lade Inhalt...

Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik

©2003 Diplomarbeit 85 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Wie in vielen anderen Bereichen der Informatik, spielt auch in der Bioinformatik die Mathematik eine sehr bedeutende Rolle. Sie stellt Grundlagen, Modelle und Algorithmen bereit, die eine Problemlösung, Analyse oder Simulation in Form von Programmen überhaupt erst ermöglichen.
Mit dieser Arbeit soll ein spezieller Teilbereich dieser mathematischen Grundlagen der Bioinformatik näher beleuchtet werden, nämlich mathematische Modelle und Methoden, die gegenwärtig bei der Analyse der Genexpression zum Einsatz kommen.
Es entspricht hierbei nicht der Zielsetzung, die komplexen biologischen Vorgänge detailliert zu erläutern. Vielmehr sollen nur die für das Verständnis der mathematischen Aufgabenstellungen erforderlichen biologischen Grundlagen in ihren Grundzügen dargestellt werden.
Diese Arbeit soll es dem Leser ermöglichen, auch ohne fundierte biologische Vorkenntnisse einen Eindruck davon zu gewinnen, was die moderne Mathematik im Bereich der Genexpressionsanalyse als Schnittstelle von Molekularbiologie und Informatik zu leisten im Stande ist.
Gang der Untersuchung:
Das Kapitel Biologische Grundlagen führt hierzu einige Grundbegriffe aus dem Bereich der Genetik - wie DNA, Proteine oder Genexpression - ein, deren Kenntnis für das Verständnis dieser Arbeit erforderlich sein wird. Ferner wird dargestellt, wie Versuchsergebnisse durch den Einsatz neuer Techniken wie DNA-Mikroarrays quantifizierbar und damit für mathematische Ansätze zugänglich gemacht werden.
Daran schließt sich eine Betrachtung Boolescher Netzwerke als Modelle der Genregulation an. Nach Einführung einiger Grundlagen stehen unterschiedliche Algorithmen zur Netzwerkidentifikation im Zentrum der Betrachtung; so auch der Reverse-Engineering-Algorithmus (REVEAL) von Fuhrman, Liang und Somogyi.
Im Kapitel Clustering-Methoden wird der häufig der Netzwerkidentifikation vorgeschaltete Prozess des Gen-Clustering erläutert. Hierbei wird dargestellt, wie aus dem gigantischen Vorrat an Genen diejenigen zur Betrachtung isoliert werden, die mit einem bestimmten zu untersuchenden Vorgang oder einer Krankheit in Verbindung stehen. Mit dem Unweighted-Pair-Grouping-Method-Algorithm und K-means werden exemplarisch sowohl eine hierarchische, wie auch eine nicht-hierarchische Clustering-Methode vorgestellt. Beispiele verdeutlichen die Arbeitsweise der Algorithmen.
Mit Bayesianische Netzwerke als Modelle der Genregulation ist ein Kapitel überschrieben, welches einen […]

Leseprobe

Inhaltsverzeichnis


ID 7213
Thierolf, Frank: Mathematische Modelle und Methoden zur Genexpressionsanalyse in der
Bioinformatik
Hamburg: Diplomica GmbH, 2003
Zugl.: Technische Universität Darmstadt, Technische Universität, Diplomarbeit, 2003
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2003
Printed in Germany

2
Inhalt
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1 Einleitung und Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Biologische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1 Proteine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Genexpression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.1 Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 RNA-Prozessierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.3 Translation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.4 Genregulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 DNA-Mikroarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Boolesche Netzwerke als Modelle der Genregulation . . . . . . . . . . . . 18
3.1 Das binäre Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Identifikation boolescher Netzwerke . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Ein einfacher Algorithmus: BOOL-1 . . . . . . . . . . . . . . . . . . 23
3.2.2 Laufzeitbetrachtung für BOOL-1 . . . . . . . . . . . . . . . . . . . . . 24
3.2.3 Informationsbedarf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.4 Behandlung von Störungen . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3 Der Reverse-Engineering-Algorithm . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Quantifizierung von Information . . . . . . . . . . . . . . . . . . . . . 27
3.3.2 REVEAL - der eigentliche Algorithmus . . . . . . . . . . . . . . . . 30

3
Inhalt
4 Clustering-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1 Euklidische Cluster-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.1 Konstruktion eines Euklidischen Distanzbaumes mittels des
Unweighted-Pair-Grouping-Method-Algorithm . . . . . . . . . . 38
4.1.2 Nicht-hierarchisches Clustering mit K-means . . . . . . . . . . . 39
4.2 Alternative Ansätze zur Cluster-Analyse . . . . . . . . . . . . . . . . . . . . 44
5 Bayesianische Netzwerke als Modelle der Genregulation . . . . . . . . . 47
5.1 Grundbegriffe der Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Grundlagen Bayesianischer Netzwerke . . . . . . . . . . . . . . . . . . . . . 50
5.3 Scoring von Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4 Nicht-parametrischer Regressionsansatz . . . . . . . . . . . . . . . . . . . . 54
6 Differentialgleichungssysteme als Modelle der Genregulation . . . . . 57
6.1 Die Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.2 Ansatz von Iba und Sakamoto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2.1 Genetische Programmierung . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2.2 Methode der kleinsten mittleren Quadrate . . . . . . . . . . . . . . 60
6.2.3 Der Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.1 Modellvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Abkürzungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4
Vorwort
Kaum ein Forschungsgebiet steht derzeit so sehr im Zentrum der öffentlichen
Beachtung wie die noch relativ junge Genomforschung. Für Aufsehen sorgte
zuletzt die nun fast vollständige Entschlüsselung des menschlichen Erbguts.
Spekulationen über die sich damit eröffnenden Möglichkeiten - ob sehr wün-
schenswert oder teils ethisch fragwürdig - scheinen keine Grenzen gesetzt.
Tatsächlich werden sicher noch Jahre oder sogar Jahrzehnte vergehen, bis sich
die durch die Entschlüsselung des Erbguts bietenden Möglichkeiten wirklich
nutzen lassen werden. Ist es mittels der Gentechnologie nunmehr zwar gelun-
gen, die in den rund fünfzigtausend menschlichen Genen gespeicherten Infor-
mationen nahezu vollständig auszulesen und elektronisch zu speichern, so war
dies erst der Anfang. Fragen nach Zusammenhängen wie etwa zwischen Be-
schaffenheit des Erbguts und Krankheiten wie Alzheimer oder Krebs lassen
sich bislang noch nicht oder nur ungenügend beantworten.
Die Entschlüsselung des menschlichen Erbguts war sicher eine große Heraus-
forderung für die Wissenschaft und unabdingbare Voraussetzung für alle nun
folgenden Schritte. Letztere sind jedoch genauso anspruchsvoll und mit großer
Wahrscheinlichkeit sogar noch bedeutender als der zuletzt erreichte Meilen-
stein der Genomforschung.
So richtet sich das Augenmerk nun immer mehr auf die Identifikation bestimm-
ter Abschnitte des menschlichen Genoms, die z.B. mit Krankheiten in Zusam-
menhang stehen sowie auf die Analyse eben dieser Zusammenhänge.
Trotz des enormen medialen Interesses an der Genforschung wird nur selten
deutlich, welche fachübergreifenden Anstrengungen sich hinter den veröffent-
lichten Ergebnissen verbergen. So dürfte sich nur den wenigsten Außenstehen-
den erschlossen haben, welche bedeutsame Rolle der Mathematik beim Errei-
chen des heutigen Kenntnisstandes zukam.

5
Tatsächlich schuf erst die Entwicklung neuer Algorithmen die Grundlage, um
z.B. Gene mit den in riesigen Datenbanken erfassten Informationen zu verglei-
chen, fehlerhafte Daten zu korrigieren, oder andere sehr rechenaufwändige Ope-
rationen durchzuführen oder zu beschleunigen. Mehr als je zuvor sind Biolo-
gen heute darauf angewiesen, dass ihnen von der Mathematik Werkzeuge in
Form von Algorithmen und Programmen an die Hand gegeben werden, mit
deren Hilfe die gigantischen ihnen nunmehr zur Verfügung stehenden Daten-
mengen auch in effizienter Art und Weise verwaltet und analysiert werden kön-
nen.
In der Tat handelt es sich hierbei um derart spezifische Aufgabenstellungen,
dass sich in den zurückliegenden Jahren ein eigenständiges Fachgebiet heraus-
bildete, das sich speziell mit dieser Schnittstelle zwischen Biologie, Informatik
und Mathematik befasst: die Bioinformatik.
Frank Thierolf
Darmstadt, im Juli 2003.
Vorwort

6
1 Einleitung und Überblick
Wie in vielen anderen Bereichen der Informatik, spielt auch in der Bioinforma-
tik die Mathematik eine sehr bedeutende Rolle. Sie stellt Grundlagen, Modelle
und Algorithmen bereit, die eine Problemlösung, Analyse oder Simulation in
Form von Programmen überhaupt erst ermöglichen.
Mit dieser Arbeit soll ein spezieller Teilbereich dieser mathematischen Grund-
lagen der Bioinformatik näher beleuchtet werden, nämlich mathematische Mo-
delle und Methoden, die gegenwärtig bei der Analyse der Genexpression zum
Einsatz kommen.
Es entspricht hierbei nicht der Zielsetzung, die komplexen biologischen Vor-
gänge detailliert zu erläutern. Vielmehr sollen nur die für das Verständnis der
mathematischen Aufgabenstellungen erforderlichen biologischen Grundlagen
in ihren Grundzügen dargestellt werden.
Diese Arbeit soll es dem Leser ermöglichen, auch ohne fundierte biologische
Vorkenntnisse einen Eindruck davon zu gewinnen, was die moderne Mathe-
matik im Bereich der Genexpressionsanalyse als Schnittstelle von Molekular-
biologie und Informatik zu leisten im Stande ist.
Das Kapitel Biologische Grundlagen führt hierzu einige Grundbegriffe aus
dem Bereich der Genetik - wie DNA, Proteine oder Genexpression - ein, deren
Kenntnis für das Verständnis dieser Arbeit erforderlich sein wird. Ferner wird
dargestellt, wie Versuchsergebnisse durch den Einsatz neuer Techniken wie
DNA-Mikroarrays quantifizierbar und damit für mathematische Ansätze zu-
gänglich gemacht werden.
Daran schließt sich eine Betrachtung Boolescher Netzwerke als Modelle der
Genregulation an. Nach Einführung einiger Grundlagen stehen unterschiedli-
che Algorithmen zur Netzwerkidentifikation im Zentrum der Betrachtung; so
auch der Reverse-Engineering-Algorithmus (REVEAL) von Fuhrman, Liang
und Somogyi.

7
Im Kapitel Clustering-Methoden wird der häufig der Netzwerkidentifikation
vorgeschaltete Prozess des Gen-Clustering erläutert. Hierbei wird dargestellt,
wie aus dem gigantischen Vorrat an Genen diejenigen zur Betrachtung isoliert
werden, die mit einem bestimmten zu untersuchenden Vorgang oder einer Krank-
heit in Verbindung stehen. Mit dem Unweighted-Pair-Grouping-Method-Algo-
rithm und K-means werden exemplarisch sowohl eine hierarchische, wie auch
eine nicht-hierarchische Clustering-Methode vorgestellt. Beispiele verdeutli-
chen die Arbeitsweise der Algorithmen.
Mit Bayesianische Netzwerke als Modelle der Genregulation ist ein Kapitel
überschrieben, welches einen probabilistischen Ansatz zur Modellierung der
Genregulation mittels Bayesianischer Netzwerke darstellt. Aufgrund des nicht-
deterministischen Charakters dieser Modelle werden in diesem Kapitel zunächst
einige grundlegende Begriffe aus der Stochastik erklärt. Daran schließt sich
eine Erläuterung der Grundlagen Bayesianischer Netzwerke sowie des Sco-
rings von Graphen an, bevor auf einen von Imoto, Goto und Miyano vorge-
schlagenen Modellierungsansatz eingegangen wird.
Das Kapitel Differentialgleichungssysteme als Modelle der Genregulation
trägt jüngeren Entwicklungen Rechnung. Nach Darstellung der Grundidee der
Modellierung der Genregulation durch Systeme von Differentialgleichungen
wird stellvertretend für die Vielzahl der bereits exisitierenden Ansätze ein Mo-
dellierungsansatz von H. Iba und E. Sakamoto vorgestellt.
Ans Ende der Betrachtungen ist eine Diskussion der vorgestellten Modelle
und Methoden gestellt. Hierbei sollen insbesondere Stärken und Schwächen
der zuvor dargestellten Modellierungsmöglichkeiten aufgezeigt und Anforde-
rungen an künftige Entwicklungen verdeutlicht werden.
Einleitung und Überblick

8
2 Biologische Grundlagen
Sehr früh beschäftigte die Menschen die Frage, wie es möglich ist, dass sich
Merkmale eines Lebewesens auf seine Nachkommen übertragen und gleich-
zeitig eine so beeindruckende Vielfalt des Lebens existiert. Aus vielen Experi-
menten erkannte man, dass hinter dem Geheimnis des Lebens eine Vielzahl
komplexer biochemischer Vorgänge stecken muss, an denen sehr unterschied-
liche chemische Strukturen beteiligt sind.
2.1 Proteine
Mit ungefähr 50 Prozent des Trockengewichts der Zellen repräsentieren Prote-
ine einen Grundbaustein, der an nahezu allen Vorgängen im Organismus betei-
ligt ist. Hierbei zeigt ihre Vielfalt (beim Menschen liegen mehrere Zehntau-
send unterschiedliche Proteine vor) zugleich ihre vielseitigen Funktionen, denn
jedes Protein erfüllt im Organismus eine ganz spezifische Aufgabe.
Bei allen Proteinen handelt es sich um Polymere, also unverzweigte Kettenmo-
leküle, zusammengesetzt aus demselben Vorrat von 20 Aminosäuren. Letztere
wiederum sind in ihrer Struktur sehr ähnliche Moleküle mit einem zentralen
Kohlenstoffatom, an das jeweils eine Carboxylgruppe, eine Aminogruppe, ein
Wasserstoffatom und eine die Aminosäuren untereinander unterscheidende Sei-
tenkette gebunden sind (siehe hierzu Abbildung 2.1).
Ein Polymer von Aminosäuren wird auch Polypeptid genannt. Hierbei ist es
möglich, dass mehrere, in bestimmter Weise geformte Polypeptide gemeinsam
ein Protein bilden. Die Längen der Polypeptidketten variieren von einigen we-
nigen bis zu mehreren Tausend Monomeren.
Da sich die Aminosäuren derart verbinden, dass das Kohlenstoffatom der Car-
boxylgruppe unter Abspaltung eines Wassermoleküls eine Verbindung mit dem
Stickstoffatom der benachbarten Aminosäure eingeht, verfügt das fertige Poly-
peptid am einen Ende über eine komplette Aminogruppe, am anderen Ende

9
hingegen über eine komplette Carboxylgruppe. Man nennt diese Enden N-Ter-
minus bzw. C-Terminus und verleiht den Polymeren somit eine Orientierung.
Mit Hilfe des in Abbildung 2.1 ebenfalls aufgeführten Ein-Buchstaben-Codes
für die 20 Aminosäuren lässt sich ein Polypeptid daher vollständig durch eine
einfache Buchstabenfolge beschreiben.
Abbildung 2.1: Die 20 Aminosäuren mit ihren Drei- und Ein-Buchstaben-Codes (aus [07]).
Ein Protein ist mit seiner Aminosäuresequenz, die auch als Primärstruktur be-
zeichnet wird, zwar eindeutig, aber noch nicht vollständig beschrieben. Damit
Biologische Grundlagen
2.1 Proteine

10
es seine spezifische Aufgabe erfüllen kann, ist es ferner erforderlich, dass es
eine ganz bestimmte Konformation aufweist. Hierunter versteht man die räum-
liche Anordnung und Formung seiner Polypeptidkette(n). Diese Betrachtungen
sprengen jedoch leider den Rahmen dieser Arbeit, so dass wir uns hier auf die
Betrachtung der Primärstruktur der Proteine beschränken.
Da Proteine einen Hauptbestandteil der Chromosomen, den schon früh identifi-
zierten Erbinformationsträgern, darstellen, wurde zunächst vermutet, dass in
den vielen Tausend unterschiedlichen Proteinen die Erbinformation codiert sein
müsse. Diese Annahme wurde jedoch im Laufe der vierziger Jahre durch Expe-
rimente widerlegt. Somit kam nur der zweite Baustein der Chromosomen als
eigentlicher Informationsträger in Frage: die DNA.
2.2 DNA
DNA bzw. DNS sind die gebräuchlichen Abkürzungen für Desoxyribonuclein-
säure (englisch: desoxyribonucleid acid). Hierbei handelt es sich um Polymere
aus Nukleotiden, ihrerseits Moleküle, die sich aus einer Phosphatgruppe, Des-
oxyribose (ein Zuckermolekül) und einer die Nukleotide untereinander unter-
scheidenden Base zusammensetzen. In der DNA treten nur Nukleotide mit den
Basen Adenin (A), Cytosin (C), Guanin (G) und Thymin (T) auf. Die Kettenbil-
dung erfolgt durch Verbindung des Zuckers eines Nukleotids mit der Phosphat-
gruppe des Nachbar-Nukleotids unter Abspaltung eines Wassermoleküls. Da
somit am sogenannten 5'-Ende des DNA-Moleküls eine vollständige Phosphat-
gruppe und am sogenannten 3'-Ende eine Hydroxygruppe vorliegt, lässt sich
ein einzelner DNA-Strang ähnlich wie Protein-Moleküle durch eine einfache
Buchstabenfolge über dem Alphabet
{
}
, , ,
A C G T vom 5'- zum 3'-Ende be-
schreiben.
Wie kann nun aber eine auf den ersten Blick so einfach aufgebaute Struktur als
Erbinformationsträger in Frage kommen? Die Antwort auf diese Frage fanden
schließlich die Biologen James Watson und Francis Crick im Jahre 1953. Sie
waren diejenigen, die erkannten, dass sich die DNA-Moleküle als Doppelhelix
zweier DNA-Einzelstränge präsentieren.
Tatsächlich kann sich jede Base über Wasserstoffbrücken an genau eine der
drei anderen Basen binden. So bilden Adenin und Thymin zwei sowie Guanin
und Cytosin drei Wasserstoffbrücken untereinander aus. Enthält z.B. ein DNA-
Einzelstrang an einer Stelle die Base Adenin, muss der zu ihm ,,komplementä-
Biologische Grundlagen
2.2 DNA

11
re" Einzelstrang an der entsprechenden Stelle die Base Thymin aufweisen. Aus
einem DNA-Einzelstrang lässt sich also auf einfache Weise die Gestalt des zu
ihm komplementären Stranges ablesen.
Abbildung 2.2: Nukleotidbasen und Zuckermoleküle (aus [07]).
Damit hatten Watson und Crick das Geheimnis der DNA-Vervielfältigung ge-
lüftet, ein Verdienst, für das sie im Jahre 1962 mit dem Nobelpreis ausgezeich-
net wurden.
Abbildung 2.3: DNA-Doppelhelix (aus [07]).
Ihre Idee soll hier nur kurz und stark vereinfacht dargestellt werden: Im Rah-
men eines komplexen biochemischen Vorganges wird die Doppelhelix bei der
DNA-Replikation, wie sie vor jeder Zellteilung erforderlich ist, in ihre zwei
Einzelstränge geteilt. Anschließend dienen letztere durch Basenpaarung als
Vorlage für neue, jeweils komplementäre DNA-Stränge, so dass nach Abschluss
dieses Vorgangs zwei identische DNA-Doppelstränge vorhanden sind.
Biologische Grundlagen
2.2 DNA

12
Neben der DNA gibt es jedoch noch eine weitere Art von Nucleinsäuren mit
fundamentaler Bedeutung: die Ribonucleinsäuren.
2.3 RNA
Die Ribonucleinsäuren, kurz RNS oder RNA, ähneln in ihrem Aufbau stark der
DNA. An Stelle der Base Thymin weisen sie jedoch die Base Uracil (U) auf.
Letztere bildet wie Thymin stets mit Adenin ein Basenpaar. Ferner verwendet
die RNA das Zuckermolekül Ribose an Stelle der Desoxyribose (siehe Abbil-
dung 2.2). Zwar können RNA-Abschnitte als Teil einer DNA-RNA-Doppelhe-
lix auftreten, jedoch ist die RNA nicht in der Lage, eine eigenständige Doppel-
helix zu bilden.
Besitzt die RNA durchaus eine der DNA sehr ähnliche Bauweise, so hat sie im
Organismus jedoch ganz andere Funktionen zu erfüllen. Hierauf wird im Fol-
genden noch näher eingegangen.
2.4 Genexpression
Wie bereits zuvor erwähnt, sind nahezu alle Vorgänge in einem Organismus
untrennbar mit der gezielten Synthese ganz spezifischer Proteine verbunden.
Letztere können beispielsweise zur Speicherung und dem Transport von Stof-
fen dienen, Signale übermitteln oder die Funktion von Katalysatoren überneh-
men.
Wie aber wird die Proteinsynthese aus den zwanzig zu Grunde liegenden Ami-
nosäuren gesteuert?
Tatsächlich müssen alle für den Bau einer Aminosäuresequenz benötigten In-
formationen in der DNA gespeichert sein. Da das Alphabet des genetischen
Codes nur die Buchstaben A, C, G und T kennt, sind für die Codierung der
zwanzig möglichen Aminosäuren mindestens Tripletts, sogenannte Codons,
erforderlich (64 Codewörter). Durch Experimente konnte diese Theorie bestä-
tigt werden. Es wurde nachgewiesen, dass es sich bei dem genetischen Code
um einen degenerierten Code handelt. Einige Tripletts codieren also dieselbe
Aminosäure. Außerdem existieren sogenannte Start- und Stop-Codons, die in-
nerhalb eines DNA-Stranges den Beginn bzw. das Ende eines Genes markie-
ren. Ein Gen ist eine DNA-Sequenz, die genau ein Polypeptid codiert. Das
Start-Codon ATG bzw. AUG nimmt hierbei eine Sonderrolle ein, da es inner-
Biologische Grundlagen
2.3 RNA

13
halb einer Start-Stop-Sequenz die Aminosäure Methionin codiert.
Wie aber läuft die Übersetzung der vielen Tausend in der DNA enthaltenen
Gene in die durch sie codierten Proteine ab?
Der hier angesprochene Prozess wird als Genexpression bezeichnet und lässt
sich grob in drei Schritte gliedern: die Transkription, die RNA-Prozessierung
und die Translation.
Abbildung 2.4: Die 64 Codons und die durch sie codierten Aminosäuren (aus [07]).
2.4.1 Transkription
Als Transkription wird der Vorgang bezeichnet, bei dem als RNA-Polymerasen
bezeichnete Enzyme die DNA-Doppelhelix aufspalten und entsprechend den
Regeln der Basenpaarung eine RNA-Abschrift eines Genes erstellen. Hierbei
markieren bestimmte Nukleotidsequenzen auf der DNA den Beginn und das
Ende der Transkription eines Genes. Die hier erzeugte Nukleotidsequenz wird
als Prä-mRNA bezeichnet, wobei mRNA für messenger-RNA steht.
2.4.2 RNA-Prozessierung
Tatsächlich enthält ein DNA-Strang wesentlich mehr Nukleotide als zur Co-
dierung der durch ihn beschriebenen Polypeptide benötigt werden. Die nicht-
codierenden Segmente der DNA werden als Introns, die codierenden Segmente
Biologische Grundlagen
2.4 Genexpression

14
als Exons bezeichnet. Nur letztere werden also exprimiert, d.h. in ein Protein
übersetzt. Die nach der Transkription vorliegende Prä-mRNA enthält jedoch
auch die Abschrift der Introns. Während des als RNA-Prozessierung oder Spli-
cing bezeichneten Vorgangs, der häufig auch als Teil der Transkription betrachtet
wird, werden daher die nicht codierenden Segmente aus der Prä-mRNA her-
ausgelöst und die Exons zur fertigen messenger-RNA zusammen gefügt. Diese
kann nun im letzten Schritt zur Synthese des durch sie codierten Polypeptids
eingesetzt werden.
Abbildung 2.5: Die Genexpression - von der DNA zum Protein (aus [07]).
2.4.3 Translation
Während dieses letzten Teils der Genexpression wird die Nukleotidsequenz
der zuvor erstellten mRNA in eine entsprechende Sequenz von Aminosäuren
übersetzt. Der als Translation bezeichnete Vorgang spielt sich an als Riboso-
men bezeichneten Strukturen ab. Diese Zellorganellen verknüpfen die im Zell-
plasma in ausreichenden Mengen vorhanden 20 Aminosäuren entsprechend der
sie durchlaufenden mRNA zu einem neuen Protein.
Hiermit erklärt sich die enorme Bedeutung der Analyse der Genexpression für
die Wissenschaft:
Ist es bislang zwar gelungen, die gesamte menschliche DNA zu sequenzieren,
vielen Genen Funktionen zuzuordnen oder Gendefekte zu erkennen, so wird es
künftig darauf ankommen, nicht jedes Gen einzeln, sondern viele Gene ge-
meinsam in ihrem Zusammenspiel und unter Berücksichtigung äußerer und
innerer Einflüsse zu analysieren.
Tatsächlich lassen sich zu untersuchende Vorgänge in einem Organismus, wie
z.B. Krankheiten, Anpassungen an Umwelteinflüsse oder Allergien, meist nicht
Biologische Grundlagen
2.4 Genexpression

15
auf ein einzelnes Gen, sondern nur auf eine Interaktion vieler Gene, Proteine
und sonstiger Faktoren (z.B. Temperatur) zurückführen. Von zentraler Bedeu-
tung ist also die Frage, welche Proteine in einer Zelle unter bestimmten Bedin-
gungen synthetisiert werden. Diese Steuerung der Genexpression bezeichnet
man als Genregulation.
2.4.4 Genregulation
Wie gesehen, ist das Leben eines Organismus unabdingbar mit der ständigen
zeit- und mengengerechten Synthese einer gigantischen Zahl unterschiedlicher
von ihm benötigter Proteine verbunden. Die Steuerung dieses Vorganges nennt
man Genregulation. Findet durch einen Fehler in der Genregulation eine Über-
oder Unterproduktion eines Proteins statt, so kann sich dies z.B. in Anomalien
oder Krankheiten äußern. Als Beispiel soll an dieser Stelle nur die Entstehung
von Krebs durch übermäßige Produktion eines Wachstumshormons erwähnt
werden, was verdeutlicht, wie bedeutsam ein Verstehen der Genregulation und
ihre Modellierung für die Wissenschaft sein kann.
Entsprechend der vorangegangenen Erläuterungen lässt sich die Genregulation
in drei Bereiche untergliedern: die Regulation der Transkription, die Regulati-
on der Translation und die Regulation des Metabolismus. Hierbei spielt eine
Vielzahl unterschiedlicher Faktoren innerer und äußerer Natur eine Rolle (vgl.
[07]). Besondere Bedeutung kommt insbesondere den vorliegenden Protein-
konzentrationen zu.
Da Proteine im Vergleich zu RNA-Molekülen relativ schwer zu untersuchen
sind, ihre Synthese aber zuvor in der Transkription ganz bestimmter Gene ihren
Ausdruck findet, beschränkt man sich bei der Analyse der Genexpression häu-
fig auf eine Analyse der Transkription. Man interessiert sich also dafür, welche
mRNA-Moleküle in einer Zelle anzutreffen sind, d.h. welche Gene exprimiert
wurden. Bei der Beantwortung dieser Frage hat sich ein technisches Verfahren
als sehr nützlich erwiesen, das im Folgenden kurz erläutert werden soll: der
Einsatz sogenannter DNA-Mikroarrays.
2.5 DNA-Mikroarrays
Unter einem DNA-Mikroarray versteht man einen Chip, bestehend aus einem
Trägermaterial, auf dem in Form eines sehr engen Punktrasters unterschiedli-
che DNA-Moleküle, sogenannte Sonden, fixiert wurden. Jeder Punkt enthält
dabei nur genau eine spezifische DNA (in vielfacher Ausführung), die jeweils
Biologische Grundlagen
2.5 DNA-Mikroarrays

16
einer zu untersuchenden mRNA entspricht.
Bei Durchführung eines Experimentes wird die zu einem Zeitpunkt in einer
Zelle vorliegende mRNA isoliert und im Rahmen einer inversen Transkription
in eine zu ihr komplementäre DNA, die sogenannte cDNA übersetzt. Anschlie-
ßend wird die erhaltene cDNA vervielfältigt und markiert. Zur Markierung sind
insbesondere Fluoreszenzfarbstoffe geeignet.
Nun kann die erhaltene cDNA auf das DNA-Mikroarray aufgebracht werden.
Bei vorliegender Komplementarität einer cDNA zu einer DNA-Sonde, werden
diese sich durch Watson-Crick-Basenpaarung aneinander binden. Ein solcher
Vorgang wird als Hybridisierung bezeichnet. Bei einer nachfolgenden Laser-
abtastung des Mikroarrays, lässt sich somit für jeden Punkt über die Stärke der
Fluoreszenz auf die Menge der vorliegenden mRNA schließen. Für jedes un-
tersuchte Gen lässt sich damit ein Expressionsniveau angeben (z.B. durch ei-
nen Wert zwischen 0 und 255).
Eine weitere Möglichkeit stellen sogenannte kompetitive Hybridisierungen dar.
Hierbei wird nicht nur die zu untersuchende cDNA markiert und auf den Mi-
kroarray aufgebracht, sondern zugleich eine Referenz-DNA mit einer anderen
Farbe markiert und ebenfalls zur Hybridisierung verwendet. Nachdem für jede
Farbe eine eigene Abtastung erfolgte, lassen sich beide Bilder zu einem Ge-
samtbild überlagern. Aus der sich für jeden Punkt ergebenden Farbe lässt sich
somit ablesen, ob das betrachtete Gen in der untersuchten Zelle oder im Refe-
renzmaterial stärker exprimiert wurde.
Abbildung 2.6: Symbolische Fluoreszenzdarstellung eines DNA-Mikroarrays.
DNA-Mikroarrays zeichnen sich dadurch aus, dass auf engstem Raum mehrere
Tausend unterschiedliche DNA-Sonden angeordnet werden können. Somit lässt
sich die aus einer Zelle isolierte mRNA simultan auf die Expression Tausender
Biologische Grundlagen
2.5 DNA-Mikroarrays

17
unterschiedlicher Gene untersuchen.
Es gilt zu beachten, dass sich mit DNA-Mikroarrays über die vorliegende mRNA
nur der Vorgang der Transkription näher untersuchen lässt. Andere für die Gen-
regulation gleichfalls bedeutsame RNA-Spezies und Proteine werden hierbei
gänzlich ignoriert. Außer acht bleibt ferner der Vorgang der Translation.
Weiterhin können durch Mikroarray-Experimente nur zeitdiskrete Expressions-
daten gewonnen werden, wodurch jedoch der zeitliche Ablauf der Genexpres-
sion und damit ein kontinuierlicher Vorgang approximiert werden soll. Auch
die stetigen bzw. häufig in Form von Expressionsstufen diskretisierten Expres-
sionsdaten müssen bei einer Modellierung hinterfragt werden, handelt es sich
bei der Genexpression, wie zuvor gesehen, doch um einen mikrodiskreten Vor-
gang.
Dennoch ermöglicht erst die auf diesem Weg erreichte experimentelle Mess-
barkeit der Genexpression eine Vielzahl neuer mathematische Ansätze und Me-
thoden zu ihrer Analyse, wie sie in dieser Arbeit im Folgenden dargestellt wer-
den.
Biologische Grundlagen
2.5 DNA-Mikroarrays

18
3 Boolesche Netzwerke als Modelle der
Genregulation
Wie zuvor dargestellt, spielt bei den in einem Organismus ablaufenden Vorgän-
gen eine Vielzahl innerer und äußerer Faktoren eine Rolle. Die größte kommt
jedoch zweifelsohne der Genexpression zu.
Um einen Krankheitsverlauf untersuchen zu können, ist es aber nicht nur inte-
ressant zu wissen, welche Gene mit der betrachteten Erkrankung in Verbin-
dung stehen, sondern vielmehr, welche Faktoren deren Expression zu welchem
Zeitpunkt veranlassen, verstärken, reduzieren oder blockieren. Es wird also
nach Modellen gesucht, die die Vorgänge in einem Organismus zumindest aus-
schnittsweise darstellen können.
Jede Modellierung impliziert hierbei starke Vereinfachungen des tatsächlichen
Sachverhaltes. Ziel ist es, einen Vorgang hinreichend genau nachvollziehen zu
können, ohne gleichzeitig an die Grenzen der technischen Machbarkeit zu sto-
ßen. So werden wir in dieser Arbeit stets davon ausgehen, dass nur die Gene
eines Organismus selbst Einfluss auf ihre Exprimierung haben. Diese Steue-
rung der Expression nennt man, wie in Kapitel 2 erläutert, auch Genregulation.
Abbildung 3.1: Schematische Darstellung eines genetischen Netzwerkes (aus [35]).
Außer acht bleiben jegliche externe Faktoren, wie z.B. andere chemische Ver-
bindungen, Strahlungseinwirkungen oder Umgebungstemperatur, aber auch in-
terne Faktoren wie die Genexpression beeinflussende Proteine, deren Synthese

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2003
ISBN (eBook)
9783832472139
ISBN (Paperback)
9783838672137
DOI
10.3239/9783832472139
Dateigröße
5.4 MB
Sprache
Deutsch
Institution / Hochschule
Technische Universität Darmstadt – Mathematik
Erscheinungsdatum
2003 (September)
Note
1,0
Schlagworte
genregulation netzwerk clustering differentialgleichungen
Zurück

Titel: Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
85 Seiten
Cookie-Einstellungen