Wissensmanagement in der Bioinformatik
Ulf Leser
Proteomics Proteindatenbanken
Molekularbiologische Datenbanken
Laserabtastung des Arrays
Scanning
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Rohdaten
Bilderkennung
2
Erkennen von Lichtpunkten, Intensität und Koordinaten
Entfernen nicht hybridisierter Sample cDNA
Arrayaufbereitung
TIFF Bild
Sample-cDNA hybridisiert mit Proben-cDNA
Zellprobe (Sample)
Hybridisierung
Referenzarray (Probe)
Ablauf
G001
G002
G003
G004
G005
G006
...
Z2
Z3
Z4
Z5
Z6
...
S1
...
...
...
...
...
...
...
...
...
...
...
...
G200
S3
...
...
...
...
...
...
...
S4
...
...
...
...
...
...
...
S5
...
...
...
...
...
...
...
S6
...
...
...
...
...
...
...
…
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
G100
S2
cDNA Library vervielfältigen (PCR) Auf Array aufbringen Jede Zelle entspricht einem Gen (idealisiert) Array-Layout: Redundanz, feste Proben, Abstandsmaximierung, ...
Z1
• • • •
Probenaufbereitung
3
1,28 cm
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
4
• Bis zu 400.000 Zellen • Pro Zelle 1 Oligo • Redundante Auslegung • 20 Matches • 20 Mismatches
Affy GeneChips
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
¾ Zuordnung von Genexpressionsmustern zu Phänotypen
– Individuelle Medikamentwirksamkeit – Pharmokogenomics
• Differentielle Diagnostik von Tumoren • Personalisierte Medizin
5
– Screenen aller Gene, Finden der charakteristischen
• Finden typischer Genexpressionsmuster • Reportergene, Tumormarker
Anwendungsgebiet Diagnostik
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
¾ Schwierig, charakteristische Effekte zu finden
– Primär-, Sekundäreffekte: Tumor (primär) führt zu erhöhter Zellteilung (sekundär) mit 100en aktivierten Genen
• Ursache – Wirkung nicht trennbar
6
– Jede Zellmanipulation zur Verarbeitung induziert Veränderung in Genexpression (Stress, Apoptose, ...)
• RNA Isolierung
– Viele Gene nur selten und in geringer Dosis aktiv (insb. embryonale Zellen)
• Genrepräsentation
– Genexpression ist in Zellen immer unterschiedlich (Phase in „Cell Cycle“, Umgebung, Vorfahren, ...)
• Gesund–krank Messung schwierig
Systematische Probleme
Sample 1
Verteilung von Intensitätsunterschieden
Vollständig identische Exprimierung
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Sample 2
Sample 2
Ein Punkt = Ein Gen
Ausreißer: Interessante Gene
Sample 2
Visualisierung - Scatterplots
7
>t
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
8
– log: Gleichbehandlung von Steigerung/Verringerung – Signifikanz durch Schwellwerte, z.B. 2 (interessant), 4 (sehr int.)
e
avg (T ) log avg ( S )
– X differentiell exprimiert, gdw.:
• „Simple Fold“
Differentielle Exprimierung 2
sd ( S ) 2 sd (T ) 2 + m n
avg (S ) − avg (T )
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– t: Stärke der differentiellen Exprimierung – X differentiell exprimiert mit Signifikanz α gdw. |t|1
Hierarchisches Clustern
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Quelle: http://www.ii.uib.no/~bjarted/jexpress/hclust.html
Reale Daten
11
• • • •
–
– –
•
Berechne Clusterzuordnung aller Gene
Solange mehr als s Bewegungen
Initial keine Zuordnung
Erste Clusterzentren zufällig gewählt
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
centre(Ci) = avg(elements(Ci))
12
Berechne neue Clusterzentren
Old = cluster[Xi] j = min[j] abstand(Xi,Cj) cluster[Xi] = j Bewegt sich Gen Xi ? if old ≠ j: t=t+1
Für alle Ci
• • • •
t=0 Für alle Xi∈S
center[Ci] = Yi cluster[Xi] = -1 t = MAXINT Solange t > s
K-Means - Algorithmus
Experiment
Protokolle
Normalisierung
Bilderkennung
13
Spotting Array: Probe
Design
Arrayverarbeitung
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Hybridisierung Experimenttyp
Probenaufbereitung
labelled RNA: Sample
RNA
Zelle
Modellierung von Microarray-Experimenten
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
MIAMI Objektmodell
14
• • • • •
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– SWISS-PROT und TrEMBL – Interpro und Co. – PDB
Proteomics Biotechnologie: Gele & Massenspektroskopie Algorithmen zur Proteinidentifikation Datenmodelle: Proteine & Proteomics Datenbanken
Inhalt dieser Vorlesung
15
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Von Genen zu Proteinen
16
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Proteine formen komplexe Gebilde – Trennung schwierig bis unmöglich
• Komplexbildung
– Proteine werden nach Übersetzung weiter verändert – Phosporylierung (Aktivierung), Signalentfernung (Protein Sorting) , Glycosylierung, etc. – ca. 100.000 Proteine – ca. 500.000 Formen
• Modifikationen
– Ein Gen – mehrere Proteine – Rückübersetzung von Proteinsequenzen und Suche in genomischer DNA – u.U. kein Treffer
• Alternatives Splicing
Komplikationen auf dem Weg
17
Verdauung und Metabolismus Enzymatische Reaktionssteuerung Signalprozessierung Zellstruktur und Organelle Genregulation Zellteilung, Vermehrung ...
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Durchschnittlich 447 AA lang – Kürzestes [SP]: ~ 40-50 Aminosäuren – Längestes [SP]: ~ 8.700 Nesprin (Cytoplasma) [SP]: ~ 6.669 Nebulin (Muskel – hochrepetetiv) [EMBL]: 34.350, Titin (Muskel)
• Proteine im Menschen
– – – – – – –
• Proteinfunktionen
Proteine
18
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Bestimmte Reste sind geladen – Abhängig vom pH Wert der Lösung – Ändert sich bei Modifikationen
• Ladung
– Menge der Protonen + Neutronen – Zwischen [3.000-4.000] – [600.000 – 700.000] Dalton – Gewicht gleicher Proteine können unterschiedlich sein - Isotope – Ändert sich bei Modifikationen
• Masse
Proteineigenschaften
19
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– N-Terminus: Aminogruppe – C-Terminus: Carboxylgruppe – Peptidbindung
• Orientierung
– Rest (Residue)
• Aminogruppe -NH2 • Cα - Carbon -CH • Carboxyl -COOH
– Backbone
• Aufbau
Proteineigenschaften 2
20
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Krankheitscharakteristische Proteine / Proteinformen – Erforschung von Regulation, Funktion und Interaktion – Unterschiede zwischen Spezies, Zelltypen, Individuen
• Genomics = Bestimmung der DNA Sequenz eines Organismus • Transcriptomics = Bestimmung aller mRNA in einer Zelle • Proteomics = Bestimmung aller Proteine in einer Zelle • Transcriptomics und Proteomics: Identische Ziele
Teil I. Proteomics
21
• • • •
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
22
Proteine bestimmen Zellaktivität, nicht mRNA Einbeziehung von post-translationalen Modifikationen Einbeziehung langfristiger Effekte (Lebensdauer von Proteinen) Proteine sind direkte Drug Targets
Vorteile Proteomics
Proteomics versus Transcriptomics
– – – – –
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
23
30.000 Gene – 100.000 Proteine – 500.000 Proteinformen Neue Technik – wenig Standards, schwierig im Hochdurchsatz Probenaufbereitung – es gibt kein PCR für Proteine Identifikation – es gibt keine Hybridisierung bei Proteinen Kürzere Reaktionszeiten – Messung beeinflusst Messobjekt (Stress)
Nachteile Proteomics
Proteomics versus Transcriptomics
Ausschneiden
Proteinisolierung
24
Funktion, Struktur, Interaktion, ...
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Analyse
Massenspektroskopie Sequenzierung
2D Gelelektrophorese
Proteintrennung
Proteinidentifikation
Aufbereitung aller Proteine einer Zelle
Proteinextraktion
Proteomics Workflow
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
[Genomweb.com, 26.1.2001]
25
„GeneProt will run 20 hours a day and will use 1,420 Compaq Alpha-based Tru64 UNIX computer processors along with Compaq software and StorageWorks systems to capture, store, and analyze the terabytes of data generated by 51 Bruker Daltonics mass spectrometers“
Large Scale
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• 2D Gelelektrophorese (2D-GE) • Edman Sequenzierung • Massenspektroskopie (MS)
Teil II. Biotechnologie
26
Aufgetrennte Proteine 27
SDS (Sodiumdodecylsulphate) bindet an und lädt Proteine; Diffusionsgeschwindigkeit im elektrischen Feld hängt von Masse ab
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Proteingemisch
Gel mit pH Gradient; Protein bewegt sich im Feld zu isoelektrischem Punkt
– 1. Dimension: Ladung – 2. Dimension: Masse
• Zweidimensionale Trennung von Proteinen
2D Gelelektrophorese
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
28
• Proteine können an vielen Stellen H+ verlieren (deprotonated) oder gewinnen (protonated) • Protein in Lösung (mit bestimmten pH-Wert) verliert oder gewinnt Protonen • Der pKA Wert eines Proteins gibt an, bei welchem pH Wert 50% des Proteins protonated sind • Isoelektrische Punkt: pH-Wert, an dem das Protein Netto (im Vergleich zur Lösung) keine Ladung mehr hat - und sich damit auch nicht mehr bewegt
– Sauer = niedriger pH Wert = viele H+ und wenige OH– Basisch = hoher pH Wert = wenig H+ und viele OH– Neutral = pH=7 = H+ und OH- Gruppen ausgeglichen
• pH Wert einer Lösung = Anzahl freier H+
Isoelektrischer Punkt
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
2D-GE Ergebnisse
29
Keine Proteine 200KD Keine extrem geladenen Proteine (sehr sauer / sehr basisch) Schwierig bei geringen Konzentrationen (Low abundance) Keine Membranproteine (Anderes Gel-Verhalten)
– Keine Identifikation von Proteinen
• • • •
– Ausschneiden aufwändig (manuell) – Einschränkungen
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
30
Einfache und billige Methode, sehr weit verbreitet Trennung bis zu 10.000 Proteine möglich Vergleich von Bildern begrenzt möglich (Gesund–krank) Nachteile
• Datenbanken
• • • •
2D-GE
31
• Problem: Keine Hybridisierung
– Möglichkeit 1: Sequenzieren – Möglichkeit 2: Identifizieren
• Proteine sind isoliert • Nach keine Kenntnis über Sequenz
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Analyse
Proteinidentifikation
Proteinisolierung
Proteintrennung
Proteinextraktion
Nächste Schritte
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Lange Dauer – ca. 30-60 Minuten pro Zyklus – Für Hochdurchsatz nicht verwendbar – Aber: wichtig zur Qualitätskontrolle
• Nachteile
32
– Protein in hochreiner Konzentration vorhanden – Enzymatische Trennung einer Aminosäure vom NTerminus – Identifikation durch chromatographische Verfahren – Zyklische Wiederholung
• Verfahren seit ca. 1980 bekannt • Prinzip
1. Sequenzierung: Edman Degradation
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Ionisierung 33
• Zu geringe Ladung
– Verdau
Probleme • Proteine empfindlich
– Beschleunigung von Proteinen in elektrischem Feld – Dektor misst Auftreffen der geladenen Teilchen (Ionen) – Flugzeit proportional zu Verhältnis Masse / Ladung (m/z)
• Prinzipielle Idee
2. Identifikation: Massenspektroskopie
Proteine vorab enzymatisch in Peptide zerbrechen Enzymatischer Verdau Peptide mit Massenspektroskop messen Originalprotein aus Kombination der gemessenen Peptide bestimmen
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Viele Peptidasen bekannt
– Jedes Protein hat eindeutige Peptidsignatur (Fingerprint)
• Annahme
– – – –
• Problem: Proteine zu zerbrechlich für MS • Lösung
Schritt 1: Verdau
34
35
Chymotrypsin: Nach Tyr, Trp, Phe, Met
Pro
Pro
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Trypsin: Nach Arginin und Lysin, es sei denn, es kommt Prolin
Enzymatischer Verdau
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
36
– MALDI – Matrix Assisted Laser Desorption/Ionisation – Peptide in „Matrix“ einbetten –Kristallisierung mit lichtempfindlichen, geladenen Molekülen – Kristall mit Laser beschießen – Lichtempfindliche Moleküle verdampfen und reißen ionisierte Peptide in Gasphase mit – Beschleunigen in MS
• Problem: Peptide oft ohne Ladung – keine Beschleunigung • Lösung
Schritt 2: Ionisierung
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
MALDI
37
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
38
• Jedes Peptid ist ein Peak • Peakhöhe mit heutiger Technik nicht relevant • Algorithmisches Problem: Protein aufgrund des PeakFingerprints bestimmen
Ergebnis des MS
...AVFFPAPMLLYR...
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Analyse
Proteinidentifikation
Proteinisolierung
Proteintrennung
Proteinextraktion
39
Ref-Datenbank
MS
Ausschneiden
2D-GE
Zusammenfassung: Kompletter Workflow
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– ESI – Electrospray Ionisierung – Tandem MS/MS mit De Novo Sequenzierung – Fourier Transform Mass Spectrometer – magnetische Isolierung, extreme Genauigkeit – ...
• Intensiv beforschtes Gebiet • Viele Varianten von MS
Weiterentwicklungen
40
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Bekannte Proteine (Datenbank) „in silico“ verdauen – Theoretische Spektren Si berechnen – Für alle Si: Ähnlichkeit sim(S,Si) berechnen – Beste Si ausgeben 41
• Eingabe: Spektrum S (Peptid Fingerprint) • Ausgabe: Protein ID • Prinzipielles Vorgehen
Teil III. Algorithmen zur Proteinidentifikation
Vergleich
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Theoretische Vorhersage
Experimentelle Messung
Übersicht
42
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
43
– Sehr unwahrscheinlicher Worst-Case (Alle Si mit identischen Peptiden identisch zu S) – Average-case ist O(|S|) (Bei Vorberechnung von P)
• Komplexität: O(|S|*n)
– Für alle i: Si∈P[p]: M[i] = M[i] + 1
• Berechne Array P: P[k] = {Si | k ∈ Si} • Setze M[i] = 0, i < n • Für alle p ∈ S
– S = {p1,...pm} – Si = {pi1,...pik(i)}, i < n
• Eingabe:
Einfacher Algorithmus: Hitcount
S1 S2 S3 S4 S
= = = = =
[5,8,9,14,18] [3,5,9,12] [4,8,16,17,20] [1,7,9,17] [7,8,14,16,17]
– – – –
= = = =
1,2,4 3
1,3 ∅
1 (8) + 1 (14) 0 1 (8) + 1 (16) + 1 (17) 1 (7) + 1 (17)
∅
4
2 0 3 2
1
∅
∅ 3,4
3
2
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
sim(S1,S) sim(S2,S) sim(S3,S) sim(S4,S)
• Bewertung
• Vorberechnetes Array
– – – – –
• Datenbank
Beispiel
∅
2
1,2
3
∅
∅
44
-
1
4
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
45
Oft reichen 4 - 5 Hits Wie signifikant sind Hits?
– X-Achse: Peptidmasse, zwischen 1000 und 5000 Dalton – Y-Achse: Anz. Peptide, zwischen 0 und 7000, (log)
• Anzahl matchender Peptide (Trypsin) nach Masse
– Hits geringer Peptidmassen weniger signifikant – Lange Proteine zerfallen in mehr Peptide- höhere Chance f. Hits
• Direkte Hits sehr selten • Statistische Effekte
Schwierigkeiten
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
¾ Vergleich scheitert 46
– Enzyme haben nicht 100% Erfolg – Enzyme arbeiten nicht exakt wie gewünscht (Struktur / Sequenz des Proteins beeinflusst Wirkungsgrad) – DNA Datenbanken haben Fehler – falsche Proteinsequenz – falsches theoretisches Peptid (Schlimmer: Frameshift) – Posttranslationale Modifikationen – entfernen von Proteinteilen – „falsche“ gemessene Peptide
• Probleme
Mehr Probleme
9
18
21
30
28
18
32
9
21
9
12
18
21
30 47
MRANSYRFLKASSLSKVVVSKLALLIPE
12
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
12
15 26 18 32 8 23 MRANSYRFLKSSLSKVVVSKLALLIPE
• Trypsin: Nach Lysin (K) und Arginin (A)
– Kein Verdau an definierten Schnittstellen – Beliebige Peptide (aus Proteinsequenz)
• Idee
Beliebige Schnitte
Gegeben: String S über Alphabet A Jeder Buchstabe a∈A hat Gewicht w(a)→Ν Gegeben: eine Zahl M Gesucht: Substring s∈S so dass w(s)=M
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Ideen ?
– – – –
• Abstrakte Darstellung
One-String-Mass-Finding
48
[CEL+02]
r>|S|: Exit (Failure) wM: Schritt 4
– – – –
Exit (Failure) Schritt 3 Exit (Success) Schritt 4
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
l=r: wM:
4. w=w-w(S[l]); l = l+1
– – – –
1. Zwei Pointer l,r auf String S, l=r=1 2. Bereich [l,r]∈S ist Kandidat für s; Sei w=S[1] 3. r = r+1; w=w+w(S[r])
Algorithmus 2: LINSEARCH
49
• • • • r 1 2 3 4 4 5 5 6 6 7
l 1 1 1 1 2 2 3 3 4 4
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Konstanter Platz • O(n) Laufzeit • Besser ?
A={a,b,c,d} w(a) = 5, ... 6, 7, 8 S= adbaccdbdadcb M=22
Beispiel
accd
acc
bacc
bac
dbac
dba
adba
adb
ad
a
s
50
27
19
25
18
26
19
24
19
13
5
w(s)
• • • • •
(
)
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
i =1
= 1+ ∑ n *i + n + i2 − i + n
n -2
i =1
= 1 + ∑ ((i + 1) * (n − i ) ) + n
n -2
51
Besser ?
1 + 2 * (n - 1) + 3(n - 2) + ... + (n - 1) * 2 + n
Alle w(s) mit s∈S vorberechnen In sortiertem Baum speichern Laufzeit: O(log(n)) Speicher: O(n2) Wie viele s∈S gibt es ?
Variante: BINSEARCH
– – – – –
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Springt in Blöcken der Länge b durch S Geringfügige Laufzeitverbesserung Immenser Platzbedarf (in |A|2b) Lohnt erst ab SEHR großen Strings Aber: Durchschnittliche Proteinlänge: 447 aa
• [CEL+02]: LOOKUP
– Laufzeit: Konstant
• w(s) in Array der Größe |S|*max(w(a)) speichern
Varianten
52
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
53
– Frameshifts in DNA – Protein Übersetzung – SWISS-PROT speichert Consensussequenzen – ohne Variationen. Besser: Non-Redundant Datasets NLR3D, OWL, ...
• Probleme/Fehler in Datenbanken
– Isotope – Peptidmassen sind nicht fest – Modifikationen: Phosporylierung, Glycosylierung, ... – Messfehler, ungenaue MS-Kalibrierung
• Geringe Gewichtsänderungen (weniger als AA)
Mehr „aber“ ...
?
21
9
28
18
32
9
21
21
MRANSYRFLKASSLSKVVVSKLALLIPE
12
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
SRANSYR
9
– Proteinlänge nicht berücksichtigt – Lange Proteine haben höhere Grundwahrscheinlichkeit, ein bestimmtes Peptid zu enthalten – Relative Häufigkeit von Peptiden nicht beachtet
• Statistischer Bias
Noch mehr aber ...
54
21
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
? 55
...SYRFLKASSLSKMRANSYRFLKASSLSKMRANSYRFLKASSLSKVVVSKLALLI...
21
– Keine Garantie, das Spektrum in DB enthalten – Wahrscheinlichste Protein in DB ≠ Absolute Wahrscheinlichkeit
• Keine Einschätzung der Güte des Ergebnis
Noch mehr aber ...
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Diverse weitere Algorithmen: MASCOT, PeptIdent, ProteinProspector, ...
– ProFound – Bayes-basiert – Beachtung Messfehler, Proteingröße und Peptidhäufigkeiten
¾ Wahrscheinlichkeitsbasierte Verfahren
– MOWSE – Matches mit Score – Beachtung Peptidhäufigkeit und Proteinmasse
¾ Heuristische Korrekturfaktoren
Praktische Algorithmen
56
Proteine in 10 KD-Schritten in Gruppen einteilen Pro Gruppe Zellen in 100 Da Schritte bilden Peptidhäufigkeit in Zelle pro Gruppe zählen Sei P‘ ein Match für Spektrum S, P‘ ∈ P, P in Gruppe G, P‘ in Zelle Z von G Zähle 1/freq(Z) zum Score von P
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Gesamtscore P mit Proteinmasse skalieren
– – – – – –
57
[PHB93]
• Match: Abweichung um 1-2 Dalton erlaubt • Matchscore berechnen
MOWSE: Molecular Weight Search
0.4 0.3 0.2 0.1
Z1: 0-100 Z2: 100-200 Z3: 200-300 Z4: 300-400
P1 P2 ...
PA PB ...
?
PA:
P1:
310
P2:
58
{90, 310} 0.5 + 0.3
{70, 240, 350} 0.4 + 0 + 0.1
{60, 130, 320} 0.5 + 0 + 0.3
90
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
0.5 0.2 0.1 0.3
Z1: 0-100 Z2: 100-200 Z3: 200-300 Z4: 300-400
Häufigkeiten
Zellen
Gruppe
MOWSE Illustration
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Willkürliche Grenzen Heuristische Skalierungen Keine Messungenauigkeiten oder Isotope Keine Beachtung von Misses Keine Beachtung von Genauigkeit innerhalb Gruppe / Zelle • Keine Signifikanz des Ergebnisses
• • • • •
Eigenschaften
59
[ZC00]
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Annahme: Normalverteilung der Peptidmassen
p( P) * p( S | P) P( P | S ) = p(S )
• Protein P, Spektrum S
p ( A ∧ B) = p ( A) * P ( B | A) = p ( B) * p ( A | B )
• Bayes‘sche Wahrscheinlichkeit
ProFound
60
• • • •
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
61
Wie viele der vorhergesagten Peptide sind vorhanden? Über alle Peptide mit Hits im Spektrum Über alle Matches zu einem Peptid Wahrscheinlichkeit der Abweichung nach Normalverteilung
ProFound komplett
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
62
• Vergleich nur innerhalb Datenbank (Hintergrundwissen) • Kein Abgleich mit Wahrscheinlichkeit zufälliger Hits • Keine Signifikanz ableitbar
Eigenschaften
• • • •
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Kurze Peptide sehr häufig Viele zufällige Hits Geringe Aussagekraft für Identifikation Mascot: Weiterentwicklung von MOWSE
Quelle: PPCP99
Peptidhäufigkeiten
63
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
¾ Schnelle Entwicklung
– Individuelle Modifikationen – Mutationen in Aminosäuren – Systematische Messfehler
64
• Meist nur Ergebnisse relativ zur Vergleichsdatenbank • Keine Güte über Experimente ableitbar • Hohe Geschwindigkeitsanforderungen im Hochdurchsatz (1-10 Sekunden) • Unberücksichtigte Faktoren
– Simple Hit Count – Scored Hit Count – Wahrscheinlichkeitsbasiert
• Verschiedene Komplexitätsgrade
Zusammenfassung
•
•
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
1. MS zur Peptidisolierung 2. Zerbrechen der Peptide an zufälliger Stelle 3. MS zur Auftrennung der Fragmente
Drei Schritte
– Höhere Genauigkeit bei Peptididentifikation – Sequenzieren von Peptide greifbar
Neue Entwicklung
Einschub: MS/MS Verfahren
65
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
66
– Alle Teilsequenzen werden erzeugt – Suche nach Peaks mit Abständen entsprechend der Masse einer Aminosäure
• Alle Peptidbrücken gleich wahrscheinlich
• Peptide haben bevorzugte Bruchstellen: die Peptidbrücken
Peptidbindung und Fragmente
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Die „Ladder“
67
• • • •
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Kurze Teilsequenzen bestimmen – In Proteindatenbank suchen
Sehr schwierig bei repetitiven Proteinen De Novo Sequenzierung noch experimentell Deutlich größere Rechenzeit Benutzung zur Proteinidentifikation
MS/MS
68
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Proteomics-Experimente • Proteindatenbanken
Teil IV. Datenmodelle
69
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
70
– Stärkere Workflowausrichtung (mehrstufiger Prozess) – Abhängigkeit von Proteinsequenzdatenbank
• Unterschiede zu Gen-Expressionsdatenbanken
• Massenspektroskopie • Protein – Protein Interaktion
– Noch keine öffentlichen Repositories für Spektren – Noch keine Standards zur Beschreibung von Experimenten und Protokollen – HUPO: Human Proteome Organisation – PSI: Proteomics Standard Initiative
• Neues Gebiet
Proteomics Datenmodelle
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Quelle: Paton/Goble, VLDB Tutorial 2001
Beispielmodell
71
4 3
5 7
8
9
10
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
72
Probenherkunft – Probe – 2D Gel: Proteinauftrennung – Protein – Verdau des Proteins (Zerschneidung) – Massenspektroskopie – Peakmessung – Vergleich – Identifiziertes Peptid
1
2
6
Beispielmodell
6
1 2
7
5
8
4
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
MS – Verfahren und Parameter
Probenerzeugung
PEDRo Modell
73
MS und MS/MS
Peaks und Identifikation
Quelle: pedro.man.ac.uk
9
3
Separierungsmethoden
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
74
– Experimente sind nicht vergleichbar – Und werden auch bei genauer Beschreibung nicht vergleichbar
• Nach keine Standards (PEDRo ist ein Versuch) • Unklarer Nutzen vieler Metadaten
– Constraints – Zustandsübergange – Workflow
• Noch keine Vergleiche / Erfahrungsberichte verfügbar • Keine Modellierung der Dynamik der Prozesse
Bewertung
Sequenz steht im Mittelpunkt Metadaten: Autor, Version, Taxonomie, ... Featuretable mit Annotation zu Teilsequenzen Cross-Referenzen
– – – –
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Traditionell Flatfile Format Oracle DUMPs verfügbar (ca. 140 Tabellen) XML verfügbar Keine Änderungsübersicht !
• Datenmodell von EMBL und SP fast gleich • SWISS-PROT
– – – –
• Sehr ähnlich zu Sequenzdatenbanken
Protein Datenmodelle
75
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• SWISS-PROT • InterPro • PDB
Teil V. Datenbanken
76
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Automatische Generierung und Annotation • SP-TrEMBL: Wird mal nach SWISS-PROT kommen • REM-TrEMBL Wird nicht nach SP kommen (Redundant, synthetitisch, Immunoproteine, ...)
77
– SWISS-PROT: Curierte Sequenzen, kontinuierliche Verbesserung – TrEMBL: Übersetzung aller CDS – Sequenzen aus EMBL
• Aufsplittung der Daten
– > 30 „Scientific Database Curators“ – Redundanzfreiheit – Vierteljährliche Releases
• Datenbank für Proteinsequenzen • Swiss Institute of Bioinformatics und EBI • Aktive, kontinuierliche Verbesserung der Daten
SWISS-PROT
TrEMBLnew
Quelle: www.ebi.ac.uk/swissprot
Variants,conflicts...
Sub-fragment matches
Identical matches
Redundancy checks
Automatic annotation (Prosite,PFAM, Rulebase, ENZYME, MGD, Flybase…)
Truncated.dat
78
124.000
SWISS-PROT
TrEMBL
860.770
REM-TrEMBL Smalls.dat Synth.dat Pseudo.dat Immuno.dat Patent.dat
SP-TrEMBL
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
protein_id in SP+TrEMBL
CDS scanning, translation and SWISS-PROT formatting
EMBLNEW flatfile
TrEMBL Herstellung
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
79
• Einträge oft Mischung aus Controlled Vocabularies und Freitext • Seit kurzem: Evidence Codes für alle Annotationen (Curator, Opinion, By Similarity, Experiment, ...)
– Ca. 800 verschiedene Keywords
• KW: Keywords
– Modifikationen, Sequenzabschnitte, Sekundärstruktur – Splice Varianten, Konflikte, Phosphorylierung, ...
• FT: Feature Table
– Unterteilt in Topics – Beispiele: Caution, Disease, Function, Regulation, ...
• CC: Kommentare
Annotation in SWISS-PROT
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Last Update – Keine Änderungsübersichten
• Keine Versionen von Einträgen
• Primäre ID • Kann mehrere Einträge enthalten (Merged Entries)
– AC: Accession Number
80
• Keine Standards für Proteinnamen • Spezies mit wissenschaftlichen / umgangssprachlichen Name
– ID: X_Y; X: „Name“ des Proteins; Y: „Name“ der Spezies
• Swiss-Prot Release ca. alle 3 Monate • ID und AC Line
Versionierung und Identifikation
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Swiss-Prot Relational
81
PROSITE: Reguläre Ausdücke PRINTS: Multiple Sequence Alignments PFAM: Hidden Markov Models PROFILE: Gewichtete MSA Blöcke
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
82
• Interpro: Integrierte Datenbank von Proteindomänen
– – – –
• Beispiele
– Bestimmte Sequenzabschnitte (Domänen, Motivs) bestimmen Funktion des Proteins – Datenbanken zur Beschreibung interessanter Domänen – Untersuchung neuer Sequenzen auf Vorhandensein bekannter Domänen – Rückschlüsse auf Funktion
• Sekundärdatenbank zu Proteinsequenzen • Ziel
InterPro
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
InterPro Generierung
83
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– Redundante Einträge – Sub/Superdomänen –Relationen zwischen Entries
• Größtenteils manuelles Verfahren
– Aber: Zusammenhänge repräsentieren
• Quellen bleiben eigenständig • Regelmäßige Aktualisierungen • Jeder Entry der Quelle wird Entry in InterPro
InterPro Integration
84
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
– mmCIF / OpenMMS – Umformatierung, Datenverbesserung, RDBMS – MSD (EBI) – RDBMS, Konsistenzchecks, geometrische Validierung 85
• Verschiedene Bemühungen zur Verbesserung
– Entstanden aus Buch Anfang der 60er – Mehrere Formatänderungen – Archivmodell, keine Datenmanipulationen
• Repository aller Protein 3D Strukturen • Entry-Based Legacy Database
Proteinstrukturdatenbank
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• Sehr oft Rückgriff auf Originalliteratur notwendig
– Ergänzung fehlender Werte (Referenzen) – Konsistenzchecks (Wertebereiche, Plausibilität) – Ersetzung durch Vorzugsbegriffe mit Synonymwörterbuch
• Record by Record
– Einheitliche Taxonomie, Beschreibung von Ketten und Liganden
• File by File nach Proteinfamilien
Data Cleansing Prozess
86
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
Quelle: [BBF+01]
Erfolge
87
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
• ... und viele mehr
– Enthält: SWISS-PROT, PIR, GenBank
88
– Nicht-redundante Sammling von Proteinsequenzen
• OWL
– Beinhaltet PIR, SWISS-PROT und TrEMBL – Ablösung einer langen Parallelentwicklung – Erster Release noch nicht verfügbar
• UniProt
Others
•
•
•
•
•
•
•
•
•
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003
89
[ATB+01] Apweiler, R., Attwood, T. K., et al. (2001). "The InterPro Database, an Integrated Documentation Resource for Protein Families, Domains and Functional Sites." Nucleic Acids Research 29(1): 37-40. [CEL+02] Cieliebak, M., Erlebach, et al. (2002). "Algorithmic Complexity of Protein Identification: Searching in Weighted Strings". TCS 2002, pp. 143-156. [PHB93] Pappin, D. J. C., Hojrup, P. and Bleasby, A. J. (1993). "Rapid identification of proteins by peptide-mass fingerprinting." Current Biology 3(327-332). [ZC00] Zhang, W. and Chait, B. T. (2000). "ProFound: an expert system for protein identification using mass spectrometric peptide mapping information." Anal Chem 72(11): 2482-9. [KR03] Krane, D. E. and Raymer, M. L. (2003). "Fundamental Concepts of Bioinformatics", Benjamine Cummings (Kapitel 8). [ATB+01] Apweiler, R., Attwood, T. K., Bairoch, A., et al. (2001). "The InterPro Database, an Integrated Documentation Resource for Protein Families, Domains and Functional Sites." Nucleic Acids Research 29(1): 37-40. [BBF+01] Bhat, T. N., Bourne, P., Feng, Z., et al. (2001). "The PDB data uniformity project." Nucleic Acids Res 29(1): 214-8. [BDF+03] Boutselakis, H., Dimitropoulos, D., Fillon, J., et al. (2003). "E-MSD: the European Bioinformatics Institute Macromolecular Structure Database." Nucleic Acids Res 31(1): 458-62. [TPG+03] Taylor, C. F., Paton, N. W., Garwood, et al. (2003). "A systematic approach to modeling, capturing, and disseminating proteomics experimental data." Nat Biotechnol 21(3): 247-54.
Literatur