Methoden des Maschinellen Lernens zur Vorhersage von Peak ...

20.09.2007 - verringert man die Varianz des Modells auf Kosten einer kleinen Erhöhung ..... Durch eine explizite Definition von K werden φ und F implizit de-.
887KB Größe 7 Downloads 333 Ansichten
Fakult¨ at f¨ ur Mathematik und Informatik ¨ INFORMATIK INSTITUT FUR Bioinformatik

Methoden des Maschinellen Lernens zur Vorhersage von Peak-Intensit¨ aten in PMF-Massenspektren

Diplomarbeit zur Erlangung des akademischen Grades

Diplom Bioinformatiker vorgelegt von

Lars Steinbru ¨ ck geb. am 10. September 1982 in Weida

Betreuer:

Prof. Dr. E.G. Schukat-Talamazzini Prof. Dr. S. B¨ocker

Eingereicht am:

20. September 2007

Kurzfassung MALDI-TOF-Massenspektrometrie ist eine der popul¨arsten Methoden in der modernen Proteomik. Insbesondere wegen der steigenden Datenmengen werden automatisierte Verfahren f¨ ur eine Identifikation unbekannter Proteine unumg¨anglich. Eine solche Identifikationstechnik sind Peptid Mass Fingerprints, das Resultat einer massenspektrometrischen Analyse eines enzymatisch gespaltenen Proteins. Die Identifikation besteht dabei aus einer Suche innerhalb von Datenbanken, die aus Referenzspektren bestehen. Zus¨atzliche Informationen wie Spaltungsregeln k¨onnen dabei die Genauigkeit der Identifikation verbessern. Da aber kein Modell existiert, welches die Peak-Intensit¨aten vorhersagen kann, werden diese bei der Identifikation nicht ber¨ ucksichtigt. In dieser Arbeit besch¨aftigen wir uns mit der Problemstellung, Peak-Intensit¨aten eines MALDI-TOF-Spektrums vorherzusagen. Dazu verwenden wir verschiedene Regressionsverfahren, die durch die Verwendung des Kerneltricks“ auch nichtlineare Relationen zwischen den ” Merkmalen berechnen k¨onnen. Die Vorhersage wird dabei auf der Grundlage von Sequenzmerkmalen sowie daraus abgeleiteten Merkmalen getroffen. Unsere Ergebnisse zeigen, dass durch die Verwendung von dualer logistischer Regression mit einem ANOVA-Zerlegungskern die Peak-Intensit¨aten auch mit wenigen Lerndaten gut vorhergesagt werden k¨onnen. Ebenso wird ersichtlich, dass verschiedene energetische und strukturelle Eigenschaften der einzelnen Aminos¨auren (insbesondere deren Ladung) einen wesentlichen Einfluss auf diese Intensit¨aten haben.

Inhaltsverzeichnis 1 Einleitung

1

2 Biologischer Hintergrund 2.1 Nukleins¨auren . . . . 2.2 Proteine . . . . . . . 2.3 Massenspektrometrie 2.4 MALDI-TOF . . . .

. . . .

5 5 5 7 9

3 Methoden des Maschinellen Lernens - Lineare Verfahren 3.1 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . .

13 13 15 16

4 Methoden des Maschinellen Lernens - Dualisierte Verfahren 4.1 Dualisierung einfacher Algorithmen . . . . . . . . . . . . . 4.2 Der Kerneltrick . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Kernfunktionen auf dem p . . . . . . . . . . . . . 4.2.2 Kernfunktionen auf Strings . . . . . . . . . . . . . .

. . . .

19 19 21 22 26

5 Merkmalauswahl 5.1 Arten der Merkmalauswahl . . . . . . . . . . . . . . . . . . . . . . 5.2 Arten von Suchstrategien . . . . . . . . . . . . . . . . . . . . . . .

29 29 30

6 Datenrepr¨ asentation 6.1 Zielwertgenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Merkmalvektorgenerierung . . . . . . . . . . . . . . . . . . . . . . 6.3 Implementierungsdetails . . . . . . . . . . . . . . . . . . . . . . .

33 33 34 36

7 Vorhersage der Peak-Intensit¨ aten 7.1 ML-Techniken: Lineare Verfahren . . . . . . . . . . . . . 7.1.1 Lineare Regression und Koeffizientenverkleinerung 7.1.2 Logistische Regression . . . . . . . . . . . . . . . 7.2 ML-Techniken: Dualisierte Verfahren . . . . . . . . . . . 7.2.1 RBF-Kern . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Polynomkern . . . . . . . . . . . . . . . . . . . . 7.2.3 ANOVA-Zerlegungskern . . . . . . . . . . . . . . 7.2.4 K-Spectrum Kernel . . . . . . . . . . . . . . . . . 7.2.5 String Subsequence Kernel . . . . . . . . . . . . . 7.3 Vergleich der Ergebnisse . . . . . . . . . . . . . . . . . .

39 40 40 41 42 42 44 45 47 48 49

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

R

. . . . . . . . . .

. . . .

. . . .

. . . . . . . . . .

. . . .

. . . .

. . . . . . . . . .

. . . .

. . . .

. . . . . . . . . .

. . . . . . . . . .

v

7.4

Anpassung der Aminos¨aure-Repr¨asentation . . . . . . . . . . . . .

53

8 Auswahl kleinerer Merkmalmengen 8.1 Merkmalauswahl f¨ ur Tfeature . . . . . . . . . . . . . . . . . . . . . 8.2 Merkmalauswahl bei den Aminos¨aure-Repr¨asentationen . . . . . .

57 57 60

9 Schlussbemerkungen 9.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63 63 64

Literaturverzeichnis

65

Tabellenverzeichnis

69

Abbildungsverzeichnis

70

Abk¨ urzungsverzeichnis

71

A Ergebnistabellen A.1 Zus¨atzliche Vorhersageergebnisse . . . . . . . . . . . . . . . . . . A.2 Gefundene Merkmalmengen . . . . . . . . . . . . . . . . . . . . . A.3 Beste Aminos¨auremengen . . . . . . . . . . . . . . . . . . . . . .

73 73 76 78

B Grafiken der Merkmalauswahl

79

C Programmquellen C.1 Implementierte Verfahren und Hilfsfunktionen C.2 Implementierte Kernfunktionen . . . . . . . . C.2.1 Geod¨atische Distanzen . . . . . . . . . C.2.2 ANOVA-Zerlegungskern . . . . . . . . C.2.3 K-Spectrum Kernel . . . . . . . . . . . C.2.4 String Subsequence Kernel . . . . . . . C.2.5 Hilfsfunktionen . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

83 83 84 84 84 85 85 86

D Abk¨ urzungscode der Aminos¨ auren

87

Selbst¨ andigkeitserkl¨ arung

89

vi

1 Einleitung Massenspektrometrie (MS) ist eine der meist verwendeten Methoden in den heutigen Biowissenschaften. Vor allem im Bereich der Proteomik spielt sie eine entscheidende Rolle. Proteomik besch¨aftigt sich mit der Untersuchung des Proteoms, das heißt mit der Gesamtheit aller in einer Zelle vorkommenden Proteine unter be¨ stimmten Bedingungen und zu einem bestimmten Zeitpunkt. Eine Ubersicht u ¨ ber viele heute verwendete Verfahren der Protein-MS-Analyse findet sich in [Aeb03]. Eine der f¨ ur die Proteinanalyse wichtigsten MS-Techniken ist die Matrix Assisted Laser Desorption/Ionization Time of Flight (MALDI-TOF) Massenspektrometrie. Die Hauptanwendung von MALDI-TOF besteht in der Identifikation von unbekannten Proteinen. Die massenspektrometrische Untersuchung erfolgt nach einer vorangehenden enzymatischen Spaltung des Analyten und resultiert in einem Peptid Mass Fingerprint (PMF). Diese werden mit theoretisch errechneten Spektren von Proteinen aus einer Proteindatenbank, wie SwissProt [Boe03], verglichen. Entsprechend der zugeordneten Peaks werden einzelne Peptide zugewiesen und das entsprechende Protein identifiziert. Die Kombination von hochaufl¨osender 2D-Polyacrylamidgelelektrophorese, hochsensitiver Massenspektrometrie und schnell wachsenden Protein- und DNS-Datenbanken [Gev00] machen dabei eine automatische Identifizierung unumg¨ang¨ lich. Eine Ubersicht u ¨ ber verschiedene Proteinidentifikationstechniken ist in [Sha05] gegeben. Zwei der wichtigsten Methoden sind Mascot [Per99] und ProFound [Zha00], welche ein wahrscheinlichkeitsbasiertes Bewertungsschema verwenden, um einem PMF ein Protein zuzuordnen. Die meisten Identifikationstools verwenden neben den Peaks des PMF zus¨atzliche Informationen wie isoelektrischer Punkt, Molekulargewicht, posttranslationale Modifikationen, Taxonomie oder enzymatische Verdauungsregeln [Gay02], um die Vorhersage zu verbessern. Allerdings werden bei keinem der existierenden Tools die Peak-Intensit¨aten genutzt. Das Problem dabei ist, dass es kein Modell gibt, das die Peak-Intensit¨aten aus physikalischen und chemischen Charakteristika der einzelnen Peptide vorhersagen kann. Das ist darin begr¨ undet, dass die zugrunde liegenden Vorg¨ange, die zu unterschiedlichen Peak-Intensit¨aten f¨ uhren, nicht bekannt sind. Die Kenntnis eines Modells f¨ ur Peak-Intensit¨aten w¨ urde das grundlegende Verst¨andnis der Vorg¨ange w¨ahrend eines MS-Experimentes vertiefen und k¨onnte die automatische Proteinidentifikation verbessern. Dies spielt vor allem in der medizinischen Forschung eine wichtige Rolle. Daher sind aktuelle Forschungen bestrebt, ein solches Modell aufzustellen.

2

Kapitel 1: Einleitung

Zur Modellierung der Intensit¨aten von Tandem-Massenspektrometrie-Daten erzielte bei [Eli04] ein Entscheidungsbaum-Algorithmus die besten Ergebnisse. Mit Hilfe dieser Vorhersagen konnte die Genauigkeit der Proteinidentifikation f¨ ur MS-MS-Daten verbessert werden. Auch andere Gruppen [Arn06, Kap03, Sch03, Hav03] besch¨aftigten sich mit der Vorhersage von Peak-Intensit¨aten in MS-MSDaten, wobei haupts¨achlich die Fragmentierungswahrscheinlichkeiten der Molek¨ ule betrachtet wurden, um entsprechende Intensit¨aten zu modellieren. Im Gegensatz dazu erfolgt bei MALDI-TOF keine Fragmentierung, weshalb andere Kriterien betrachtet werden m¨ ussen. Gay et al. [Gay02] untersuchte verschiedene ML-Verfahren zur Vorhersage von PMFs. Dabei wurden sowohl Regressionsals auch Klassifikations-Algorithmen betrachtet. F¨ ur beide Klassen erzielte ein Entscheidungsbaum-Algorithmus die besten Ergebnisse. Allerdings wurden in dieser Arbeit Trainings- und Test-Daten nicht sauber getrennt. Timm et al. [Tim06] verwendeten eine ν-Support Vektor Maschine und erzielten gute Ergebnisse bei der Vorhersage von Peak-Intensit¨aten. In dieser Arbeit sollen, ausgehend von Resultaten der Applied Neuroinformatics Group der Universit¨at Bielefeld [Tim06], verschiedene Techniken des Maschinellen Lernens angewendet werden, um eine bessere Vorhersage der Intensit¨aten zu erreichen. Anliegen dieser Arbeit ist es, sowohl einfache lineare Regressionsverfahren zu testen, als auch nichtlineare Abh¨angigkeiten gegebener Merkmale durch Anwendung des Kerneltricks“ zu untersuchen. Als Merkmale sollen da” bei sowohl Sequenzinformationen als auch von der Sequenz abgeleitete physikochemische und biochemische Eigenschaften verwendet werden. Neben dem Ziel Maximierung der Vorhersagegenauigkeit“ soll auch das Zustandekommen der ” Intensit¨aten untersucht werden, das heißt, welche Merkmale beziehungsweise Sequenzfragmente haupts¨achlich f¨ ur die H¨ohe der Peaks verantwortlich sind.

3

Aufbau der Arbeit Die vorliegende Arbeit unterteilt sich grob in zwei Teile: Kapitel 2 bis 5 erl¨autern zugrundeliegendes theoretisches Basiswissen, dessen praktische Anwendung in Kapitel 6 bis 8 beschrieben wird. Kapitel 2 gibt eine Einf¨ uhrung in den biologischen Hintergrund. Außerdem werden Massenspektrometrie, MALDI-TOF und insbesondere deren Verwendung bei der Analyse von Proteinen kurz beschrieben. Verschiedene lineare Verfahren zur Regressionsanalyse werden in Kapitel 3 erl¨autert. Deren dualisierte Form wird in Kapitel 4 beschrieben. Zus¨atzlich werden der Kerneltrick“ und die in dieser Arbeit verwendeten Kernfunktionen vorgestellt. ” Eine kurze Einf¨ uhrung in das Gebiet der Merkmalauswahl bietet Kapitel 5. Kapitel 6 stellt die verwendeten Daten vor und gibt einen Einblick in verwendete Merkmalrepr¨asentationen und Implementierungsdetails. Eine ausf¨ uhrliche Anwendung der vorgestellten Verfahren mit anschließendem Vergleich und Diskussion erfolgt in Kapitel 7. In Kapitel 8 werden darauf aufbauende Ergebnisse der Merkmalauswahl pr¨asentiert. Eine Zusammenfassung der erzielten Resultate sowie ein Ausblick u ¨ber m¨ogliche zuk¨ unftige Arbeiten wird in Kapitel 9 gegeben.

4

Kapitel 1: Einleitung

2 Biologischer Hintergrund Die Biologie ist die Lehre der belebten Natur. Sie besteht aus vielen einzelnen Teilgebieten wie beispielsweise der Molekularbiologie, Zellbiologie und Entwicklungsbiologie. Es gibt aber einige Grundprinzipien, die in jedem Teilbereich wiederzufinden sind. Gerade der Bereich der Molekularbiologie hat seit der Entschl¨ usselung der DNS [Wat53] stetig an Popularit¨at gewonnen. Ein in der Molekularbiologie h¨aufig verwendetes Verfahren zur Untersuchung von Biomolek¨ ulen ist die Massenspektrometrie. Da sich diese Arbeit speziell mit diesem Verfahren besch¨aftigt, wird in diesem Kapitel zun¨achst eine Einf¨ uhrung u ¨ ber Nukleins¨auren und Proteine gegeben sowie ein dazu passender Einblick in die Technik der Massenspektrometrie.

2.1 Nukleins¨ auren Nukleins¨auren sind biologische Makromolek¨ ule, die in allen lebenden Organismen vorkommen und aus Nukleotiden aufgebaut sind. Man unterscheidet zwei Gruppen von Nukleins¨auren: die Desoxyribonukleins¨aure (DNS) und die Ribonukleins¨aure (RNS). Der Unterschied liegt in einer fehlenden OH-Gruppe der Zuckerkomponente der DNS. W¨ahrend die RNS als Einzelstrang auftritt und haupts¨achlich als Informations¨ ubertr¨ager bei der Proteinbiosynthese fungiert, bildet die DNS einen Doppelstrang, dessen Haupfunktion das Speichern der genetischen Information ist. In Eukaryoten bildet die DNS eine Helix-Struktur aus, die durch Wasserstoffbr¨ uckenbindungen stabilisiert wird und auf h¨oherer Ebene, als Chromosomen organisiert, im Zellkern abgelegt ist.

2.2 Proteine Proteine bilden die Basis einer jeden organischen Zelle und werden auch als Grundbausteine des Lebens“ bezeichnet. Sie verleihen einer Zelle die Struk” tur und sind f¨ ur die biochemischen Prozesse des Stoffwechsels verantwortlich. Ihre Aufgaben sind dabei von unterschiedlicher Natur. So erf¨ ullen sie unter anderem Funktionen wie Stofftransport, Signalerkennung und Katalysation chemischer Reaktionen. Proteine sind aus proteinogenen Aminos¨auren (AS) aufgebaut, die durch Peptidbindungen zu einer Kette verkn¨ upft sind (Abbildung 2.1b). Beim Menschen wird zwischen 22 verschiedenen AS1 unterschieden, von denen 8 essentiell sind, das heißt nicht selbst produziert werden k¨onnen. Die verschiedenen AS 1

In dieser Arbeit werden nur die 20 gel¨aufigen AS betrachtet. Das Cystein-Derivat Selenocystein und das Lysin-Derivat Pyrrolysin kommen in den untersuchten Peptiden nicht vor und werden somit in dieser Arbeit vernachl¨assigt.

6

Kapitel 2: Biologischer Hintergrund

Abbildung 2.1: Darstellung der Grundstruktur von Aminos¨ auren (a). Diese besteht aus einem zentralen Kohlenstoffatom (Cα ), einer N-terminalen Aminogruppe (N H2 ), einer C-terminalen Carboxylgruppe (COOH), einem Wasserstoffatom (H) und einer als Rest bezeichneten Seitenkette. AS werden mittels einer Peptidbindung (b) zu l¨ angeren Ketten verkn¨ upft. Dabei erfolgt eine Verbindung der Carboxylgruppe der nten AS mit der Aminogruppe der (n + 1)-ten AS unter Abspaltung von Wasser (H2 O). Abbildung aus [Bra99].

weisen alle die gleiche Grundstruktur auf und unterscheiden sich lediglich durch einen als Rest bezeichneten Abschnitt (Abbildung 2.1a). Der Rest bestimmt die chemischen Charakteristika einer AS, welche sich auf die Proteine, in denen diese AS enthalten ist, u ¨bertragen. Das Gewicht einzelner Proteine wird in Dalton (Da) angegeben. Ein Da entspricht in etwa dem Gewicht eines Wasserstoffatoms. Proteine werden w¨ahrend der Proteinbiosynthese gebildet. Dabei werden zun¨achst einzelne Abschnitte der DNS abgelesen und mittels RNS-Polymerase auf ein RNSMolek¨ ul u ¨bertragen. Dieser Vorgang wird als Transkription bezeichnet. Im Anschluss daran erfolgt die Translation. Dabei wird aus der Information des RNSMolek¨ uls mittels Ribosomen eine AS-Kette aufgebaut, wobei die Information f¨ ur eine AS durch die spezifische Aufeinanderfolge von drei Nukleotiden festgelegt ist. Ab einer Kettenl¨ange von mehr als 50 AS wird h¨aufig der Begriff Protein verwendet. K¨ urzere Ketten werden als Peptide bezeichnet. Ausgehend von der linearen AS-Kette falten sich Proteine zu komplexen r¨aumlichen Gebilden und bilden dabei verschiedene Sekund¨arstrukturelemente. Die pr¨agnantesten davon sind die α-Helix und das β-Faltblatt. Durch Kombination solcher Strukturelemente bilden sich komplexe Strukturen (wie in Abbildung 2.2

2.3 Massenspektrometrie

7

Abbildung 2.2: Darstellung der verschiedenen Strukturebenen eines Proteins. Die AS-Sequenz bildet die Prim¨ arstruktur. Lokale Abschnitte falten sich zu Sekund¨ arstrukturelementen wie α-Helix. Die r¨ aumliche Aneinanderordnung solcher Elemente einer Sequenz bildet eine Dom¨ ane und wird als Terti¨ arstruktur bezeichnet. Das Zusammenlagern mehrerer Dom¨ anen zu einem Proteinkomplex bildet die Quart¨ arstruktur. Abbildung aus [Bra99].

dargestellt), bei denen Interaktionen zwischen AS auftreten k¨onnen, die in der Sequenz weit auseinander liegen. Es sei hier angemerkt, dass einzelne AS Modifikationen aufweisen k¨onnen, z.B. eine Phosphorilierung, welche einen Einfluss auf Masse und Eigenschaften des Proteins haben k¨onnen. F¨ ur eine formalsprachliche Analyse k¨onnen Proteine als Sequenzen u ¨ ber einem Alphabet gesehen werden, das aus dem Ein-Buchstaben-Code der AS besteht. Dieser setzt sich zusammen aus den Buchstaben {A, C, D, E, F, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, W, Y}.2 ¨ F¨ ur einen genaueren Uberblick u ¨ber DNS, RNS und Proteine verweisen wir auf [Kni01] und [Ber02].

2.3 Massenspektrometrie Massenspektrometrie ist ein Verfahren zur Analyse von chemischen Elementen und Verbindungen. Diese k¨onnen sowohl anorganisch als auch organisch sein. Das Prinzip ist es, aus dem Analyten Ionen zu erzeugen und diese in die Gasphase zu u uhren. Im Hochvakuum werden die Ionen anschließend gem¨aß ihres ¨ berf¨ Masse-zu-Ladung-Verh¨altnisses in einem Massenanalysator getrennt. Die Ergebnisse dieses Verfahrens werden mittels eines Detektors sowohl qualitativ als auch quantitativ ermittelt. Das bedeutet, es erfolgt eine Detektion unbekannter Substanzen und eine Erkennung der Menge der vorhandenen Ionen. 2

Die Buchstaben U (Selenocystein) und O (Pyrrolysin) wurden aufgrund des fehlenden Vorkommens vernachl¨assigt.

8

Kapitel 2: Biologischer Hintergrund

Der Aufbau eines Massenspektrometers untergliedert sich in Ionenquelle, Massenanalysator und Detektor, wobei durch unterschiedliche Verfahren und Techniken in den drei Bereichen die Eigenschaften des Spektrums variieren. F¨ ur die Ionenquelle k¨onnen alle m¨oglichen Verfahren angewendet werden, welche der Erzeugung von Ionen dienen. Dabei entscheidet die Art der zu untersuchenden Substanz die Methode der Ionisierung. Unterschieden wird zwischen thermischer Ionisierung, Ionisierung durch elektrische Felder und Ionisierung durch Beschuss des Analyten mit Elektronen, Ionen, Photonen oder elektrisch neutralen Atomen. In der biomolekularen Analyse wird insbesondere die Electrospray Ionisation (ESI), bei der eine L¨osung des Analyten in ein elektrisches Feld gespr¨ uht und dort ionisiert wird, und die Matrix Assisted Laser Desorption/Ionisation (MALDI) verwendet. Innerhalb des Massenanalysators erfolgt die Trennung der verschiedenen Massen durch statische oder dynamische elektrische und magnetische Felder sowie in feldfreien Regionen gem¨aß der Flugzeit. Durch verschiedene Aufl¨osungsverm¨ogen ergeben sich Unterschiede zwischen den verschiedenen Methoden. Tandem-Massenspektrometer (MS-MS) besitzen mehrere Massenanalysatoren, die hintereinander geschaltet sind. Dadurch sind sowohl strukturelle als auch sequenzielle Untersuchungen m¨oglich. Der Detektor dient der Erfassung der Ionen. Gel¨aufig ist die Nutzung eines Sekund¨ar-Elektronen-Vervielfachers (SEV), bei dem auftreffende Ionen Sekund¨arelektronen ausl¨osen, die kaskadenartig verst¨arkt werden, und eines Faraday-Auff¨angers, bei dem die Ionen ihre Ladung an einen Auff¨anger“ abgeben und der so entstandene Entladungsstrom ” elektrisch verst¨arkt wird. Massenspektrometrie ist keine zerst¨orungsfreie Anwendung, da der Analyt bei der Messung verbraucht wird. Aufgrund der besonders großen Sensitivit¨at ist dieser Verlust jedoch zu vernachl¨assigen. Die detektierten Ionen werden gew¨ohnlich mittels eines Massenspektrums dargestellt. Ein Massenspektrum ist eine zweidimensionale Abbildung, bei der Intensit¨aten gegen¨ uber dem Masse-zu-Ladung-Verh¨altnis (m/z) abgebildet werden. Das Auftreten eines Signals wird als Peak bezeichnet. Die Intensit¨at eines Peaks spiegelt direkt die Ionenh¨aufigkeit bei einem gewissen Masse-zu-Ladung-Verh¨altnis wieder. Der h¨ochste Peak wird als Basispeak bezeichnet, nach dem gew¨ohnlich normiert wird.

2.4 MALDI-TOF

9

Abbildung 2.3: Schematische Darstellung der Ionenerzeugung durch MALDI. Das kokristallisierte Analyt-Matrix-Gemisch wird mit einem gepulsten Laser beschossen. Die dabei entstandenen Ionen werden durch Anlegen einer Beschleunigungsspannung in Richtung des Massenanalysators beschleunigt. Abbildung aus [Aeb03].

2.4 MALDI-TOF F¨ ur die Identifikation von Proteinen und Aufkl¨arung deren Struktur wird h¨aufig die Matrix Assisted Laser Desorption/Ionisation Time of Flight Massenspektrometrie (MALDI-TOF) angewendet. Vorteile dieses Verfahrens liegen in einer schonenden Ionisierung des Analyten, einem hohen Aufl¨osungsverm¨ogen, kurzen Analysezeiten und einer hohen Empfindlichkeit. Das Prinzip von MALDI-TOF ist es, Ionen durch Laserbestrahlung zu gewinnen und mittels einer Flugzeitanalyse zu trennen. Die zu untersuchende Substanz wird mit einer Matrix kokristallisiert und anschließend mit einem gepulsten Laser bestimmter Wellenl¨ange bestrahlt. Die Matrix ist ein kleines organisches Molek¨ ul, das bei einer bestimmten Laserwellenl¨ange Energie stark aufnehmen kann und ¨ mit einem 100- bis 100.000-fachen molaren Uberschuss vorhanden ist. Durch die kurzen hochenergetischen Laserimpulse (mit entsprechender Wellenl¨ange) wird die Matrix angeregt und es kommt zu einer explosionsartigen Abl¨osung der Teilchen von der Kristalloberfl¨ache, wodurch diese in die Gasphase u ¨bergehen. Dabei wird die Matrix verdampft, so dass nur der Analyt u ¨brig bleibt. Die Kokristal¨ lisation mit der Matrix bietet den Vorteil, dass w¨ahrend des Uberganges in die Gasphase keine Fragmentierung des Analyten auftritt. Die Ionengewinnung erfolgt durch Photoionisation, Ladungs¨ ubertragungen und Elektronenverlust in der Gasphase. Dieser gesamte Mechanismus ist jedoch nicht genau verstanden. Der Prozess der Ionengewinnung ist schematisch in Abbildung 2.3 dargestellt.

10

Kapitel 2: Biologischer Hintergrund

Abbildung 2.4: PMF eines Proteins als Ergebnis eines MALDI-TOF-Experiments. Abbildung aus [Aeb03].

Die Trennung der Ionen erfolgt nach der Flugzeit auf einer feldfreien Drift-Strecke. Zuvor werden die Ionen mittels einer angelegten Beschleunigungsspannung in Richtung Detektor beschleunigt. Da die kinetische Energie aller Ionen mit gleicher Ladung nach der Beschleunigung gleich ist, h¨angt die Geschwindigkeit der Ionen nur von ihrem Masse-zu-Ladung-Verh¨altnis ab. Die Ionen erreichen Geschwindigkeiten von bis zu 10000 m/s. Aufgrund der hohen Sensitivit¨at k¨onnen Proteinmassen von 10 kDa mit einer Genauigkeit von bis zu ± 0.05 Da bestimmt werden.

Da bei der Untersuchung ganzer Proteine lediglich das entsprechende Masse-zuLadung-Verh¨altnis in Erfahrung gebracht werden kann, wird vor der Kristallisation eine enzymatische Verdauung der zu untersuchenden Proteine durchgef¨ uhrt. Dies erfolgt mittels einer Protease, die die Proteine an spezifischen Stellen in kleinere Peptidfragmente schneidet. H¨aufig wird dabei Trypsin verwendet, welches Proteine nach den AS Lys und Arg schneidet falls in der AS-Sequenz kein Pro folgt. Durch die enzymatische Schneidung ist eventuell eine eindeutigere Identifikation m¨oglich. Ein weiterer Vorteil dieser Vorgehensweise ist, dass kleinere Molek¨ ule sensitiver und genauer gemessen werden k¨onnen. Als Resultat der anschließenden MALDI-TOF-MS erh¨alt man einen Peptid Mass Fingerprint (PMF) des Proteins (siehe Abbildung 2.4). Dieser umfasst im besten Fall alle Peptide ¨ eines Proteins und ist spezifisch f¨ ur das entsprechende Protein. Uber eine Suche in entsprechenden Datenbanken kann das zum PMF passende Protein ermittelt werden. Zus¨atzlich k¨onnen auch posttranslationale Modifikationen, wie Phosphorilierungen und Glykolisierungen, festgestellt werden. Neben der Proteinidentifikation kann mittels eines MALDI-TOF-MS-MS eine de novo“-Sequenzierung ” einzelner Peptide durchgef¨ uhrt werden.

2.4 MALDI-TOF

11

Probleme bei MALDI-TOF In der Regel erkl¨art jedes Fragment, das bei der enzymatischen Verdauung entsteht, einen Peak im Massenspektrum. Allerdings k¨onnen durch fehlende Ionisation einzelne Peaks fehlen oder durch unbekannte Verunreinigungen zus¨atzliche Peaks auftauchen. In der Theorie m¨ usste jedes Proteinfragment gleich h¨aufig entstehen, wodurch die Peak-Intensit¨aten gleich hoch sein sollten. In der Praxis ist dies jedoch nicht der Fall. In einem PMF haben die einzelnen Peaks f¨ ur gew¨ohnlich unterschiedliche Intensit¨aten, da einige Peptide besser ionisieren als andere. Welche Faktoren genau den Prozess der Ionisation beeinflussen, ist allerdings noch nicht bekannt. Zudem k¨onnen w¨ahrend eines Experiments Interaktionen zwischen einzelnen Fragmenten auftreten, welche die Peak-Intensit¨aten beeinflussen. Da diese Interaktionen aber nur sehr klein sind, werden sie oft vernachl¨assigt. F¨ ur weitere Informationen u ¨ ber Massenspektrometrie und MALDI-TOF-Massenspektrometrie verweisen wir auf [Gro04].

12

Kapitel 2: Biologischer Hintergrund

3 Methoden des Maschinellen Lernens - Lineare Verfahren Regression besch¨aftigt sich mit der Suche nach einer Funktion f (x), um eine reellwertige Zufallsvariable bei gegebenen Werten eines Vektors von erkl¨arenden Zufallsvariablen mit einer Verbunddichte P r( , ) vorherzusagen. f (x) wird als Regressionsfunktion bezeichnet und entspricht dem bedingten Erwartungswert

X

Y

XY

Y X = x].

f (x) = E[ |

(3.1)

Lineare Verfahren treffen die Annahme, dass diese Regressionsfunktion linear in den erkl¨arenden Variablen ist. In diesem Kapitel stellen wir einige dieser linearen Verfahren vor. Speziell lineare Regression, die Technik der Regularisierung sowie logistische Regression werden pr¨asentiert. F¨ ur detailliertere Informationen verweisen wir den interessierten Leser auf [Has01].

3.1 Lineare Regression Lineare Regression stellt das einfachste Verfahren zur Vorhersage reeller Werte dar. In diesem Verfahren wird ein linearer Zusammenhang zwischen p Pr¨adiktoren x1 , . . . , xp angenommen, um Werte einer Zielvariable Y vorherzusagen. Es wird somit eine Hyperebene u ¨ber die Pr¨adiktoren approximiert. Das Modell hat die Form Y = f (x1 , . . . , xp ) = β0 +

p X

xi βi .

(3.2)

i=1

β0 ist die Nullverschiebung und βi der Koeffizient des i-ten Pr¨adiktors xi . β0 repr¨asentiert somit den Punkt, an dem die Y-Achse geschnitten wird und βi den Anstieg in der i-ten Richtung. Sei x0 = 1, dann ergibt sich Gleichung (3.2) in Matrixschreibweise zu y = xT β.

(3.3)

ˆ = (βˆ1 , . . . , βˆp ) des unbekannten ParameterZiel ist es also, eine Sch¨atzung β satzes β = (β1 , . . . , βp ) zu bestimmen. Dabei wird zwar ein linearer Zusammenhang zwischen den Pr¨adiktoren angenommen, allerdings m¨ ussen diese nicht unbedingt quantitative Eingaben darstellen, sondern k¨onnen von verschiedenen Quellen stammen:

14

Kapitel 3: Methoden des Maschinellen Lernens - Lineare Verfahren • Transformationen quantitativer Eingaben, wie x2 = log(x1 ) oder x3 =



x1 ;

• Basiserweiterungen in Form von polynomiellen Repr¨asentationen oder Interaktionen, wie x2 = x21 oder x3 = x1 · x2 ; • Numerische Codierung der Auspr¨agungen qualitativer Eingaben. Beispielsweise k¨onnen f¨ ur eine Eingabe g mit drei verschiedenen Auspr¨agungen drei Variablen x1 , x2 , x3 gebildet werden, mit xj = I(g = j). Lernen eines linearen Modells Die Koeffizienten β werden in der Praxis aus einer Lernstichprobe T vom Umfang N ermittelt, die aus Paaren (xj , yj ), mit xj = xj,1 , . . . , xj,p , besteht. Die Sch¨atzung der Koeffizienten erfolgt h¨aufig durch die Methode der kleinsten Quadrate (RSS). Hierbei werden die einzelnen βi so gew¨ahlt, dass der quadratische Abstand der Residuen yi − yˆi , das heißt die Differenz zwischen originalen und vorhergesagten Werten, minimiert wird: RSS(β) =

N X j=1

(yj − β0 − T

p X

xj,i βi )2

i=1

= (y − Xβ) (y − Xβ),

(3.4)

wobei X eine (N × (p + 1))-dimensionale Matrix der Pr¨adiktoren und y ein Ndimensionaler Vektor der Zielwerte ist. Ableitung der Gleichung (3.4) nach β und Nullsetzen ergibt das Gaußsche Normalengleichungssystem (XT X)β = XT y.

(3.5)

Dieses System der Normalengleichungen hat stets mindestens eine L¨osung. Diese ist genau dann eindeutig, wenn die Matrix XT X regul¨ar ist. In diesem Fall ergibt sich die L¨osung zu ˆ = (XT X)−1 XT y. β

(3.6)

F¨ ur eine singul¨are Matrix XT X ist das Gleichungssystem unterbestimmt. In diesem Fall hat die Matrix einen Rang r < N und der L¨osungsraum des Normalengleichungssystems ist ein Untervektorraum der Dimension N − r. Einen Ausweg aus diesem Dilemma bietet die Anwendung von Regularisierung (Abschnitt 3.2) oder die Verwendung der Pseudoinversen [Pet70]. Die Vorhersage neuer Werte erfolgt nach der Gleichung ˆ = Xβ y = XT (XT X)−1 XT y.

(3.7)

Obwohl lineare Regression den einfachsten Ansatz darstellt, liefert dieser oft eine hinreichende Interpretation des zugrundeliegenden Modells.

3.2 Regularisierung

15

3.2 Regularisierung Lineare Regression unter der Annahme eines unabh¨angigen und normalverteilten Fehlers ǫ ist nach Aussage des Gauß-Markov-Theorems [Pla50] erwartungstreu und besitzt die kleinste Varianz unter den erwartungstreuen linearen Sch¨atzern. In vielen F¨allen ist die Varianz dennoch zu hoch, wodurch die Vorhersage ungenau ist. Hier setzt die Technik der Regularisierung an. Regularisierung f¨ uhrt dazu, dass einige Koeffizienten auf Null gesetzt oder verkleinert werden. Dabei verringert man die Varianz des Modells auf Kosten einer kleinen Erh¨ohung der Verzerrung, wodurch die Vorhersagegenauigkeit erh¨oht werden kann. Diese Koeffizientenverkleinerung wird dadurch erreicht, dass ein Strafterm f¨ ur β gew¨ahlt wird. Allgemein lautet die Form ( N ) p p X X X ˆ = arg min β (yj − β0 − xj,i βi )2 + λ |βj |γ . (3.8) β

j=1

i=1

j=1

Dies ist die Gleichung f¨ ur lineare Regression, erweitert um einen Regularisierungsterm. λ repr¨asentiert den Komplexit¨atsparameter, welcher den Umfang der Verkleinerung bestimmt; je h¨oher λ, desto gr¨oßer f¨allt die Verkleinerung in Richtung Null aus. Der Parameter γ bestimmt die Art der Regularisierung. Ridge Regression Der am h¨aufigsten angewendete Fall von Regularisierung, ist γ = 2, was als Ridge Regression bezeichnet wird. Die Methode der kleinsten Quadrate, angewendet auf Ridge Regression, ergibt sich somit (in Matrixschreibweise) zu RSS(β, λ) = (y − Xβ)T (y − Xβ) + λβ T β.

(3.9)

Differenzierung der Gleichung (3.9) nach β und Nullsetzen ergibt das Gaußsche Normalengleichungssystem und die L¨osung der Parametersch¨atzung f¨ ur β: (XT X)β + λβ = XT y ˆ ridge = (XT X + λI)−1 XT y, ֒→ β

(3.10) (3.11)

wobei I die Einheitsmatrix ist. Die Regularisierung erfolgt in dem Sinne, dass λ auf die Hauptdiagonale von XT X addiert wird. Dadurch ergibt sich eine L¨osung auch f¨ ur singul¨are Matrizen XT X, was der urspr¨ unglichen Idee von Ridge Regression entspricht [Hoe70]. Mathematisch betrachtet werden durch Ridge Regression die Eigenwerte der Matrix XT X vergr¨oßert um λ. Dabei werden Eigenvektoren mit geringerer Varianz st¨arker verringert. Dies erfolgt unter der Annahme, dass die Zielgr¨oße eher in den Richtungen mit h¨oherer Varianz variiert als in Richtungen mit geringerer Varianz.

16

Kapitel 3: Methoden des Maschinellen Lernens - Lineare Verfahren

3.3 Logistische Regression Logistische Regression ist ein Verfahren zur Vorhersage von kategorialen Variablen, das heißt zur Vorhersage einer Klassenzugeh¨origkeit. Daher sind solche Modelle oft bei medizinischen Problemstellungen wiederzufinden, bei denen es gilt, das Vorhandensein von Krankheiten vorherzusagen. Aber anstatt die konkreten Klassen direkt vorherzusagen, werden Wahrscheinlichkeiten gesch¨atzt, zu denen die einzelnen Klassen auftreten. Logistische Regression ist ein Spezialfall der generalisierten linearen Modelle (GLM) [McC83]. Hierbei wird ein linearer Zusammenhang zwischen verschiedenen Variablen mittels einer link-Funktion hergestellt, welche eine nichtlineare Transformation der Zielgr¨oße darstellt. Im Fall der logistischen Regression wird die Logit-Transformation als link-Funktion verwendet:   P r(Y = κ|X = x) Logit(P r(Y = κ|X = x)) = log P r(Y = K|X = x) = βκ,0 + β Tκ x. (3.12) Die Logit-Funktion (3.12) berechnet logarithmierte Odds. Odds sind Verh¨altnisse von Wahrscheinlichkeiten. Es wird dabei das Verh¨altnis zwischen der Wahrscheinlichkeit, eine Klasse κ zu erhalten, und der Wahrscheinlichkeit, eine festgew¨ahlte Referenzklasse K zu erhalten, bestimmt. Damit die Odds symmetrisch sind, wird zus¨atzlich der nat¨ urliche Logarithmus gebildet. Das logistische Modell hat somit die Form exp(βκ,0 + β Tκ x) . (3.13) P r(Y = κ|X = x) = P T 1 + K−1 exp(β + β x) k,0 k k=1 Vorteil der logistischen Regression gegen¨ uber einer Analyse mit linearer Regression ist, dass durch die Logit-Transformation nur Werte aus [0,1] vorhergesagt werden. Im Vergleich dazu kann es bei linearer Regression dazu kommen, dass Werte außerhalb dieses Intervalls vorhergesagt werden (wie in Abbildung 3.1 dargestellt). F¨ ur den Spezialfall von zwei Klassen ergibt sich die Wahrscheinlichkeit der Bezugsklasse K P r(Y = K|X = x) zu P r(Y = 0|X = x) ≡ 1 − P r(Y = 1|X = x).

(3.14)

Die Gleichungen (3.12) und (3.13) werden somit zu P r(Y = 1|X = x) ) 1 − P r(Y = 1|X = x) = βT x

Logit(P r(Y = 1|X = x)) = log(

(3.15)

und exp(β T x) 1 + exp(β T x) 1 = . 1 + exp(−β T x)

P r(Y = 1|X = x) =

(3.16)

17

0.0

0.2

0.4

y

0.6

0.8

1.0

3.3 Logistische Regression

−6

−4

−2

0

2

4

6

x

Abbildung 3.1: Vergleich einer Logit-Funktion (blau) y = Logit(P r(Y = 1|X = x)) = 1/(1−exp(x)) mit einer Regressionsgeraden (rot) y = 0.5+0.1· x. Die Logit-Funktion liefert nur Werte innerhalb des Intervalls [0,1], wogegen die Regressionsgerade f¨ ur Werte −5 > x > 5 Ergebnisse außerhalb des Intervalls [0,1] liefert.

Lernen eines logistischen Modells Logistische Modelle werden durch Maximierung des Loglikelihoods einer Lernstichprobe T , bestehend aus Paaren (xj , yj ), gelernt: ℓ(β) =

N X j=1

=

{yj log P r(Y = 1|X = xj ) + (1 − yj ) log(1 − P r(Y = 1|X = xj ))}

N X  yj β T xj + log(1 + exp(β T xj )) ,

(3.17)

j=1

wobei yj die Beobachtung f¨ ur den j-ten Datenvektor xj ist. Die Maximierung von (3.17) erfolgt iterativ durch das Newton-Raphson-Verfahren: β

r+1

= = = =

−1 ∂ 2 ℓ(β) ∂ℓ(β)‡ β − ∂β ∂β∂β T β r + (XT WX)−1 XT (y − p) (XT WX)−1 XT W(Xβr + W−1 (y − p) (XT WX)−1 XT Wz r



mit • X eine (N × (p + 1))-dimensionale Matrix der Eingangsvariablen, ‡

Auswertung der Ausdr¨ ucke an der Stelle β = β r

(3.18) (3.19)

18

Kapitel 3: Methoden des Maschinellen Lernens - Lineare Verfahren • y ein N-dimensionaler Vektor der zu X geh¨orenden Beobachtungen aus {0, 1}, • p ein N-dimensionaler Vektor der mit den β r gesch¨atzten Wahrscheinlichkeiten P r(Y = 1|X = x) und • W eine (N × N)-dimensionale Diagonalmatrix mit Gewichten und dem jten Element P r(Y = 1|X = xj )(1 − P r(Y = 1|X = xj )), basierend auf dem Modell des r-ten Iterationsschritts.

Dieses Verfahren wird bis zur Konvergenz der β durchgef¨ uhrt. Das NewtonRaphson-Verfahren (3.18) wird umgeschrieben als (3.19) auch als iteratively reweighted least squares (IRLS) bezeichnet, da es in jedem Iterationsschritt eine L¨osung des Normalengleichungssystems (XT WX)β r+1 = XT Wz

(3.20)

bestimmt. In einigen Anwendungen kann es ¨ahnlich zur linearen Regression hilfreich sein, die Koeffizienten β zu regularisieren. Dies erfolgt ¨ahnlich zur linearen Regression durch Hinzuziehen eines Strafterms. Der Loglikelihood (3.17) a¨ndert sich somit entsprechend zu [Par06] wie folgt: λ ℓ(β, λ) = ℓ(β) + β T β. 2

(3.21)

Ein Newton-Raphson-Schritt (3.19) wird damit zu β r+1 = (XT WX + λI)−1 XT W(Xβr + W−1 (y − p)) = (XT WX + λI)−1 XT Wz

(3.22)

und wird als iteratively reweighted ridge regression (IRRR) bezeichnet. Es wird somit in jedem Iterationsschritt eine L¨osung des folgenden Normalengleichungssystems bestimmt: (XT WX + λI)β r+1 = XT Wz.

(3.23)

4 Methoden des Maschinellen Lernens - Dualisierte Verfahren Lineare Techniken stellen f¨ ur das L¨osen der meisten Probleme den ersten Ansatz dar, der realisiert wird, da diese meist leicht und schnell zu lernen sind. Techniken wie lineare Regression (Kapitel 3.1) liefern dabei meist gute Ergebnisse, die erste Eindr¨ ucke u ¨ber das zu l¨osende Problem und den Problemraum geben. Allerdings sind diese Methoden oft nicht ausreichend, um wirklich gute Ergebnisse bei der Vorhersage von Zielgr¨oßen zu erzielen. In diesen F¨allen ist der Einsatz von nichtlinearen Verfahren unumg¨anglich. Diese Methoden sind oft jedoch sehr aufwendig in der Anwendung. Hier verschafft die Technik der Dualisierung Abhilfe. Mittels Dualisierung ist es m¨oglich, die in Kapitel 3 vorgestellten Methoden so abzuwandeln, dass auch nichtlineare Zusammenh¨ange gelernt werden k¨onnen. In diesem Kapitel stellen wir die Technik der Dualisierung vor und zeigen, wie diese auch auf einfache lineare Verfahren angewendet werden kann. Des Weiteren wird die Methodik der Kernfunktionen vorgestellt, welche es m¨oglich macht, nichtlineare Zusammenh¨ange mittels linearer Basis zu lernen.

4.1 Dualisierung einfacher Algorithmen Die Dualisierung von Algorithmen findet haupts¨achlich auf dem Gebiet der Support Vektor Maschinen (SVM) [Bos92, Vap00] Anwendung, l¨asst sich aber leicht auch auf andere Gebiete u ¨bertragen. Die Aufgabe der Dualisierung besteht darin, die prim¨are Formulierung eines Problems in seine duale Repr¨asentation zu u uhren. Dazu betrachten wir das Normalengleichungssystem bei Ridge Re¨berf¨ gression (3.10) (XT X)β + λβ = XT y. (4.1) Obwohl das keine explizite L¨osung darstellt, kann man diese Gleichung auch schreiben als 1 T β = X (y − Xβ) λ N 1X = xj (yj − yˆj ). (4.2) λ j=1 Die L¨osung f¨ ur β l¨asst sich also als Linearkombination der Eingabedaten darstellen: β = XT α.

(4.3)

20

Kapitel 4: Methoden des Maschinellen Lernens - Dualisierte Verfahren

Betrachte man nun das Verfahren der linearen Regression. Die prim¨are Formulierung besteht darin, einen Koeffizientenvektor β zu finden, der die Gleichung ky − Xβk minimiert. Mit (4.3) l¨asst sich dies nun in die duale Repr¨asentation u uhren. Ziel dabei ist es, einen Koeffizientenvektor α zu finden, der die Glei¨berf¨ chung ky − XXT αk minimiert. Durch diese Umformulierung erh¨alt man anstelle eines Vektors β ∈ p einen Vektor α ∈ N . Beide Ans¨atze liefern dasselbe Ergebnis, zeigen aber Unterschiede in der Laufzeit. Die Umformulierung zur dualen Repr¨asentation ist meist nur dann sinnvoll, wenn p ≫ N gilt. Eine formellere Beschreibung dieser Problematik sowie die anwendbaren Problemklassen werden durch das Representer Theorem [Kim71] beschrieben.

R

R

Das Representer Theorem besagt ebenfalls, dass die vorgestellten Verfahren lineare Regression und logistische Regression sowie deren regularisierte Form mindestens eine L¨osung besitzen, die als Linearkombination der Eingangsdaten darstellbar ist. Somit k¨onnen diese Verfahren in eine duale Repr¨asentation umgeschrieben werden. Sei K = XXT die (N × N)-dimensionale Grammatrix von Skalarprodukten. Die dualisierte L¨osung der Parametersch¨atzung f¨ ur α bei Ridge Regression hat, entsprechend zu [Has01] und [Rot99], die Form α = (K + λI)−1 y.

(4.4)

Die Vorhersage eines neuen Testwertes xtest ergibt sich somit zu ytest = xTtest β = xTtest XT α = k(K + λI)−1 Y,

(4.5)

wobei k ein Vektor von Skalarprodukten des Testwertes und den Elementen der Lerndaten ist mit dem j-ten Element kj = hxtest , xj i.

(4.6)

Somit kommen ebenfalls bei der Vorhersage neuer Werte die verwendeten Elemente nur in Form von Skalarprodukten vor. Gilt die Bedingung λ = 0, ergeben die Gleichungen (4.4) und (4.5) die L¨osung f¨ ur lineare Regression. Da sich das Problem der Parametersch¨atzung bei logistischer Regression als L¨osung eines Normalengleichungssystems (3.23) darstellen l¨asst, ist es hier ebenfalls m¨oglich die Koeffizienten als Linearkombination der Lerndaten darzustellen. Die Gleichung (3.23) hat somit, entsprechend zu [Rot01], die Form (KWK + λI)αr+1 = KWz

(4.7)

z = Kαr + W−1 (y − p).

(4.8)

mit

Ein Newton-Raphson-Schritt zur Parameterbestimmung wird zu αr+1 = (KWK + λI)−1 KWz.

(4.9)

4.2 Der Kerneltrick

21

Abbildung 4.1: Durch eine Transformation φ k¨ onnen Probleme, die in X nicht linear getrennt werden k¨ onnen (links) in F durch lineare Verfahren separiert werden (rechts). Abbildung aus [Wu05].

Die Vorhersage eines neuen Testwertes xtest ergibt sich somit mit dem bekannten k (4.6) zu P r(Y = 1|X = x) =

1 . 1 + exp(−kT α)

(4.10)

4.2 Der Kerneltrick Dualisierung macht es m¨oglich, f¨ ur bestimmte Problemklassen die urspr¨ unglichen Koeffizienten durch eine Linearkombination der Trainingsdaten darzustellen. Dadurch kommen sowohl beim Lernen eines Sch¨atzers als auch bei der Vorhersage neuer Werte die verwendeten Elemente nur in Form von Skalarprodukten vor. Dadurch ist es m¨oglich, eine nichtlineare Transformation φ anzuwenden, welche die Stichprobenelemente xj aus dem Eingaberaum X = p in einen h¨oherdimensionalen Merkmalraum F transformiert:

R

φ : X → F,

x 7→ φ(x).

(4.11)

Die Anwendung bei Ridge Regression (4.4) f¨ uhrt zu der Parametersch¨atzung α = (φ(X)φ(X)T + λI)−1 y.

(4.12)

Anstelle von Skalarprodukten in X zu berechnen, werden Skalarprodukte in F berechnet. Damit wird eine lineare Relation in F angenommen, welche einem nichtlinearen Zusammenhang in X entspricht. Wie in Abbildung 4.1 dargestellt, k¨onnen somit durch φ Probleme gel¨ost werden, die in X nicht durch lineare Sch¨atzer zufriedenstellend gehandhabt werden k¨onnen. Der Umstand, dass die transformierten Stichprobenelemente φ(xj ) nur in Form von Skalarprodukten vorkommen, macht es m¨oglich, die Technik des Kernel” tricks“ anzuwenden. Dieser besteht darin, sogenannte Kernfunktionen anzuwenden, die das Skalarprodukt des Bildes zweier Elemente aus X in F berechnen.

22

Kapitel 4: Methoden des Maschinellen Lernens - Dualisierte Verfahren

Eine Kernfunktion K ist eine symmetrische Funktion, die wie folgt definiert wird: ( X ×X → K : . (4.13) (x, z) 7→ K(x, z) = hφ(x), φ(z)i

R

Damit ein Skalarprodukt in F berechnet wird, muss K eine positiv-definite Funktion sein [Mer09]. Das bedeutet, f¨ ur jede gegebene Menge X = x1 , . . . , xN und Werte λ1 , . . . , λN ∈ muss die folgende Bedingung erf¨ ullt sein:

R

N X N X i=1 j=1

λi λj K(xi , xj ) ≥ 0.

(4.14)

Ist diese Bedingung erf¨ ullt, ist K g¨ ultig und es existiert eine zu K passende Transformation φ mit einem dazugeh¨origen Merkmalraum F , in dem die Skalarprodukte berechnet werden k¨onnen. Der Vorteil von Kernfunktionen liegt darin, dass die Transformation φ und der entsprechende Merkmalraum F nicht bekannt sein m¨ ussen. Durch eine explizite Definition von K werden φ und F implizit definiert und eine aufwendige Transformation von X nach F nicht notwendig. Der Kerneltrick“ macht es ebenfalls m¨oglich, Skalarprodukte f¨ ur komplexere ” p Datenstrukturen zu berechnen, die nicht aus dem stammen. So beschreibt Kashima et al. [Kas04] beispielsweise, wie Skalarprodukte zwischen Graphen be¨ rechnet werden k¨onnen. F¨ ur einen aktuellen Uberblick u ur ¨ber Kernfunktionen f¨ komplexere Daten und Anwendungen von Kernfunktionen in der Biologie verweisen wir auf [G¨a03, Ver05].

R

Einen weiteren Vorteil bietet die Tatsache, dass durch verschiedene Kombinationen und Transformationen g¨ ultiger Kernfunktionen wieder g¨ ultige Kernfunktionen entstehen k¨onnen. Beispielsweise f¨ uhrt die Multiplikation zweier Kerne K(x, z) = K1 (x, z) · K2 (x, z)

(4.15)

wieder zu einer g¨ ultigen Kernfunktion. Eine der wichtigsten Transformationen ist die Normierung eines Kerns auf Werte des Intervalles [0,1]: Knorm (x, z) = p

K(x, z) p , K(x, x) · K(z, z)

(4.16)

was dem Kosinus des Winkels entspricht, der durch die beiden Vektoren x und z aufgespannt wird. F¨ ur weitere Operationen verweisen wir auf [Gen02]. Im Folgenden beschreiben wir einige Kernfunktionen, die in dieser Arbeit Anwendung gefunden haben.

4.2.1 Kernfunktionen auf dem

Rp

Kernfunktionen f¨ ur reellwertige Elemente fester L¨ange stellen eine weite Klasse dar. Der einfachste aller Kerne ist der lineare Kern, welcher das einfache Skalarprodukt im p berechnet:

R

Klin (x, z) = hx, zi.

(4.17)

23

0.0

0.2

0.4

y

0.6

0.8

1.0

4.2 Der Kerneltrick

−6

−4

−2

0

2

4

6

x−z

Abbildung 4.2: Drei RBF-Funktionen mit unterschiedlichen Bandbreitenparametern. Man kann deutlich erkennen, dass f¨ ur σ = 0.1 (rot) eine wesentlich breitere Gaußglocke entsteht als f¨ ur σ = 1 (blau). Mit σ = 10 (gr¨ un) sind nur noch kleine Differenzen zwischen x und z erlaubt, um einen Wert > 0 zu erhalten.

Auf Grundlage dieses Kerns l¨asst sich eine Vielzahl einfacher und schnell berechenbarer Kerne definieren. Ein sehr bekannter globaler Kern ist der Polynomkern. Dieser bildet neue Merkmale aus Kombinationen von bestehenden Merkmalen: Kpoly (x, z) = (hx, zi + o)q :

(4.18)

mit q = die h¨ochste Ordnung der verwendeten Monome und o = der Offset f¨ ur Monome bis zur Ordnung q − 1. Dabei gilt: je gr¨oßer q, desto h¨oher die Ordnung der Merkmalkombinationen. Der Polynomkern ist eine einfache Art, nichtlineare Relationen zwischen den Pr¨adiktoren herzustellen, mit dem es unter anderem m¨oglich ist, das XOR-Problem linear zu separieren [G¨a03]. Ein anderer Kern, der in der Praxis oft Anwendung findet, ist der lokale RBFKern. Dieser ist ein Abstandskern, welcher ein Skalarprodukt Krbf (x, z) = exp(−σkx − zk2 )

(4.19)

entsprechend der Distanz zweier Elemente mit σ = Bandbreitenparameter berechnet. Wie in Abbildung (4.2) zu erkennen, steigt mit kleiner werdendem σ das Skalarprodukt f¨ ur weiter entfernte Vektoren. Dies ist so, da bei kleinen σ fast alle Vektoren φ(x) nahezu richtungsgleich sind und somit bis auf einen Skalierungsfaktor identisch. Dagegen werden bei großen σ die Vektoren φ(x) ann¨ahernd orthogonal und nur fast identische Vektoren x liefern ein Skalarprodukt 6= 0. ANOVA-Zerlegungskern Ebenso wie der Polynomkern ist der ANOVA-Zerlegungskern aus [Vap00] ein Kern zur Merkmalkombination aus bestehenden Merkmalen, der bereits bei der Verwendung mit Support Vektor Maschinen [Sti97] und mit Ridge Regression

24

Kapitel 4: Methoden des Maschinellen Lernens - Dualisierte Verfahren

[Sau98] sehr gute Ergebnisse lieferte. Abgeleitet ist dieser von der ANOVAZerlegung (Analysis of Variance) aus der Statistik, welche verschiedene Teilmengen von gegebenen Variablen untersucht. Die Idee des ANOVA-Zerlegungskerns ist es, Teilmengen der vorhandenen Pr¨adiktoren zu bilden und die Skalarprodukte dieser Teilmengen zu summieren. Sei dazu K(xij , zij ) ein eindimensionaler Kern, der ANOVA-Zerlegungskern f¨ ur Teilmengen der Gr¨oße q ergibt sich zu X Kq (x, z) = K(xi1 , zi1 ) · . . . · K(xiq , ziq ). (4.20) 1≤i1