Proteomics - Institut fÃ¼r Informatik

Hybridisierung Experimenttyp. Page 14. U lf Leser: M o leku larb io log isch e D aten b an ken. , Vo rlesu n g. , So. Se 2003. 14. MIAMI Objektmodell. Page 15. U.

PDF Herunterladen

PNG-Bilder

3MB Größe 2 Downloads 72 Ansichten

Kommentar

Wissensmanagement in der Bioinformatik

Ulf Leser

Proteomics Proteindatenbanken

Molekularbiologische Datenbanken

Laserabtastung des Arrays

Scanning

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Rohdaten

Bilderkennung

2

Erkennen von Lichtpunkten, Intensität und Koordinaten

Entfernen nicht hybridisierter Sample cDNA

Arrayaufbereitung

TIFF Bild

Sample-cDNA hybridisiert mit Proben-cDNA

Zellprobe (Sample)

Hybridisierung

Referenzarray (Probe)

Ablauf

G001

G002

G003

G004

G005

G006

...

Z2

Z3

Z4

Z5

Z6

...

S1

...

...

...

...

...

...

...

...

...

...

...

...

G200

S3

...

...

...

...

...

...

...

S4

...

...

...

...

...

...

...

S5

...

...

...

...

...

...

...

S6

...

...

...

...

...

...

...

…

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

G100

S2

cDNA Library vervielfältigen (PCR) Auf Array aufbringen Jede Zelle entspricht einem Gen (idealisiert) Array-Layout: Redundanz, feste Proben, Abstandsmaximierung, ...

Z1

• • • •

Probenaufbereitung

3

1,28 cm

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

4

• Bis zu 400.000 Zellen • Pro Zelle 1 Oligo • Redundante Auslegung • 20 Matches • 20 Mismatches

Affy GeneChips

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

¾ Zuordnung von Genexpressionsmustern zu Phänotypen

– Individuelle Medikamentwirksamkeit – Pharmokogenomics

• Differentielle Diagnostik von Tumoren • Personalisierte Medizin

5

– Screenen aller Gene, Finden der charakteristischen

• Finden typischer Genexpressionsmuster • Reportergene, Tumormarker

Anwendungsgebiet Diagnostik

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

¾ Schwierig, charakteristische Effekte zu finden

– Primär-, Sekundäreffekte: Tumor (primär) führt zu erhöhter Zellteilung (sekundär) mit 100en aktivierten Genen

• Ursache – Wirkung nicht trennbar

6

– Jede Zellmanipulation zur Verarbeitung induziert Veränderung in Genexpression (Stress, Apoptose, ...)

• RNA Isolierung

– Viele Gene nur selten und in geringer Dosis aktiv (insb. embryonale Zellen)

• Genrepräsentation

– Genexpression ist in Zellen immer unterschiedlich (Phase in „Cell Cycle“, Umgebung, Vorfahren, ...)

• Gesund–krank Messung schwierig

Systematische Probleme

Sample 1

Verteilung von Intensitätsunterschieden

Vollständig identische Exprimierung

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Sample 2

Sample 2

Ein Punkt = Ein Gen

Ausreißer: Interessante Gene

Sample 2

Visualisierung - Scatterplots

7

>t

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

8

– log: Gleichbehandlung von Steigerung/Verringerung – Signifikanz durch Schwellwerte, z.B. 2 (interessant), 4 (sehr int.)

e

 avg (T )   log   avg ( S ) 

– X differentiell exprimiert, gdw.:

• „Simple Fold“

Differentielle Exprimierung 2

sd ( S ) 2 sd (T ) 2 + m n

avg (S ) − avg (T )

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– t: Stärke der differentiellen Exprimierung – X differentiell exprimiert mit Signifikanz α gdw. |t|1

Hierarchisches Clustern

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Quelle: http://www.ii.uib.no/~bjarted/jexpress/hclust.html

Reale Daten

11

• • • •

–

– –

•

Berechne Clusterzuordnung aller Gene

Solange mehr als s Bewegungen

Initial keine Zuordnung

Erste Clusterzentren zufällig gewählt

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

centre(Ci) = avg(elements(Ci))

12

Berechne neue Clusterzentren

Old = cluster[Xi] j = min[j] abstand(Xi,Cj) cluster[Xi] = j Bewegt sich Gen Xi ? if old ≠ j: t=t+1

Für alle Ci

• • • •

t=0 Für alle Xi∈S

center[Ci] = Yi cluster[Xi] = -1 t = MAXINT Solange t > s

K-Means - Algorithmus

Experiment

Protokolle

Normalisierung

Bilderkennung

13

Spotting Array: Probe

Design

Arrayverarbeitung

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Hybridisierung Experimenttyp

Probenaufbereitung

labelled RNA: Sample

RNA

Zelle

Modellierung von Microarray-Experimenten

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

MIAMI Objektmodell

14

• • • • •

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– SWISS-PROT und TrEMBL – Interpro und Co. – PDB

Proteomics Biotechnologie: Gele & Massenspektroskopie Algorithmen zur Proteinidentifikation Datenmodelle: Proteine & Proteomics Datenbanken

Inhalt dieser Vorlesung

15

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Von Genen zu Proteinen

16

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Proteine formen komplexe Gebilde – Trennung schwierig bis unmöglich

• Komplexbildung

– Proteine werden nach Übersetzung weiter verändert – Phosporylierung (Aktivierung), Signalentfernung (Protein Sorting) , Glycosylierung, etc. – ca. 100.000 Proteine – ca. 500.000 Formen

• Modifikationen

– Ein Gen – mehrere Proteine – Rückübersetzung von Proteinsequenzen und Suche in genomischer DNA – u.U. kein Treffer

• Alternatives Splicing

Komplikationen auf dem Weg

17

Verdauung und Metabolismus Enzymatische Reaktionssteuerung Signalprozessierung Zellstruktur und Organelle Genregulation Zellteilung, Vermehrung ...

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Durchschnittlich 447 AA lang – Kürzestes [SP]: ~ 40-50 Aminosäuren – Längestes [SP]: ~ 8.700 Nesprin (Cytoplasma) [SP]: ~ 6.669 Nebulin (Muskel – hochrepetetiv) [EMBL]: 34.350, Titin (Muskel)

• Proteine im Menschen

– – – – – – –

• Proteinfunktionen

Proteine

18

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Bestimmte Reste sind geladen – Abhängig vom pH Wert der Lösung – Ändert sich bei Modifikationen

• Ladung

– Menge der Protonen + Neutronen – Zwischen [3.000-4.000] – [600.000 – 700.000] Dalton – Gewicht gleicher Proteine können unterschiedlich sein - Isotope – Ändert sich bei Modifikationen

• Masse

Proteineigenschaften

19

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– N-Terminus: Aminogruppe – C-Terminus: Carboxylgruppe – Peptidbindung

• Orientierung

– Rest (Residue)

• Aminogruppe -NH2 • Cα - Carbon -CH • Carboxyl -COOH

– Backbone

• Aufbau

Proteineigenschaften 2

20

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Krankheitscharakteristische Proteine / Proteinformen – Erforschung von Regulation, Funktion und Interaktion – Unterschiede zwischen Spezies, Zelltypen, Individuen

• Genomics = Bestimmung der DNA Sequenz eines Organismus • Transcriptomics = Bestimmung aller mRNA in einer Zelle • Proteomics = Bestimmung aller Proteine in einer Zelle • Transcriptomics und Proteomics: Identische Ziele

Teil I. Proteomics

21

• • • •

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

22

Proteine bestimmen Zellaktivität, nicht mRNA Einbeziehung von post-translationalen Modifikationen Einbeziehung langfristiger Effekte (Lebensdauer von Proteinen) Proteine sind direkte Drug Targets

Vorteile Proteomics

Proteomics versus Transcriptomics

– – – – –

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

23

30.000 Gene – 100.000 Proteine – 500.000 Proteinformen Neue Technik – wenig Standards, schwierig im Hochdurchsatz Probenaufbereitung – es gibt kein PCR für Proteine Identifikation – es gibt keine Hybridisierung bei Proteinen Kürzere Reaktionszeiten – Messung beeinflusst Messobjekt (Stress)

Nachteile Proteomics

Proteomics versus Transcriptomics

Ausschneiden

Proteinisolierung

24

Funktion, Struktur, Interaktion, ...

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Analyse

Massenspektroskopie Sequenzierung

2D Gelelektrophorese

Proteintrennung

Proteinidentifikation

Aufbereitung aller Proteine einer Zelle

Proteinextraktion

Proteomics Workflow

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

[Genomweb.com, 26.1.2001]

25

„GeneProt will run 20 hours a day and will use 1,420 Compaq Alpha-based Tru64 UNIX computer processors along with Compaq software and StorageWorks systems to capture, store, and analyze the terabytes of data generated by 51 Bruker Daltonics mass spectrometers“

Large Scale

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• 2D Gelelektrophorese (2D-GE) • Edman Sequenzierung • Massenspektroskopie (MS)

Teil II. Biotechnologie

26

Aufgetrennte Proteine 27

SDS (Sodiumdodecylsulphate) bindet an und lädt Proteine; Diffusionsgeschwindigkeit im elektrischen Feld hängt von Masse ab

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Proteingemisch

Gel mit pH Gradient; Protein bewegt sich im Feld zu isoelektrischem Punkt

– 1. Dimension: Ladung – 2. Dimension: Masse

• Zweidimensionale Trennung von Proteinen

2D Gelelektrophorese

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

28

• Proteine können an vielen Stellen H+ verlieren (deprotonated) oder gewinnen (protonated) • Protein in Lösung (mit bestimmten pH-Wert) verliert oder gewinnt Protonen • Der pKA Wert eines Proteins gibt an, bei welchem pH Wert 50% des Proteins protonated sind • Isoelektrische Punkt: pH-Wert, an dem das Protein Netto (im Vergleich zur Lösung) keine Ladung mehr hat - und sich damit auch nicht mehr bewegt

– Sauer = niedriger pH Wert = viele H+ und wenige OH– Basisch = hoher pH Wert = wenig H+ und viele OH– Neutral = pH=7 = H+ und OH- Gruppen ausgeglichen

• pH Wert einer Lösung = Anzahl freier H+

Isoelektrischer Punkt

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

2D-GE Ergebnisse

29

Keine Proteine 200KD Keine extrem geladenen Proteine (sehr sauer / sehr basisch) Schwierig bei geringen Konzentrationen (Low abundance) Keine Membranproteine (Anderes Gel-Verhalten)

– Keine Identifikation von Proteinen

• • • •

– Ausschneiden aufwändig (manuell) – Einschränkungen

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

30

Einfache und billige Methode, sehr weit verbreitet Trennung bis zu 10.000 Proteine möglich Vergleich von Bildern begrenzt möglich (Gesund–krank) Nachteile

• Datenbanken

• • • •

2D-GE

31

• Problem: Keine Hybridisierung

– Möglichkeit 1: Sequenzieren – Möglichkeit 2: Identifizieren

• Proteine sind isoliert • Nach keine Kenntnis über Sequenz

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Analyse

Proteinidentifikation

Proteinisolierung

Proteintrennung

Proteinextraktion

Nächste Schritte

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Lange Dauer – ca. 30-60 Minuten pro Zyklus – Für Hochdurchsatz nicht verwendbar – Aber: wichtig zur Qualitätskontrolle

• Nachteile

32

– Protein in hochreiner Konzentration vorhanden – Enzymatische Trennung einer Aminosäure vom NTerminus – Identifikation durch chromatographische Verfahren – Zyklische Wiederholung

• Verfahren seit ca. 1980 bekannt • Prinzip

1. Sequenzierung: Edman Degradation

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Ionisierung 33

• Zu geringe Ladung

– Verdau

Probleme • Proteine empfindlich

– Beschleunigung von Proteinen in elektrischem Feld – Dektor misst Auftreffen der geladenen Teilchen (Ionen) – Flugzeit proportional zu Verhältnis Masse / Ladung (m/z)

• Prinzipielle Idee

2. Identifikation: Massenspektroskopie

Proteine vorab enzymatisch in Peptide zerbrechen Enzymatischer Verdau Peptide mit Massenspektroskop messen Originalprotein aus Kombination der gemessenen Peptide bestimmen

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Viele Peptidasen bekannt

– Jedes Protein hat eindeutige Peptidsignatur (Fingerprint)

• Annahme

– – – –

• Problem: Proteine zu zerbrechlich für MS • Lösung

Schritt 1: Verdau

34

35

Chymotrypsin: Nach Tyr, Trp, Phe, Met

Pro

Pro

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Trypsin: Nach Arginin und Lysin, es sei denn, es kommt Prolin

Enzymatischer Verdau

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

36

– MALDI – Matrix Assisted Laser Desorption/Ionisation – Peptide in „Matrix“ einbetten –Kristallisierung mit lichtempfindlichen, geladenen Molekülen – Kristall mit Laser beschießen – Lichtempfindliche Moleküle verdampfen und reißen ionisierte Peptide in Gasphase mit – Beschleunigen in MS

• Problem: Peptide oft ohne Ladung – keine Beschleunigung • Lösung

Schritt 2: Ionisierung

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

MALDI

37

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

38

• Jedes Peptid ist ein Peak • Peakhöhe mit heutiger Technik nicht relevant • Algorithmisches Problem: Protein aufgrund des PeakFingerprints bestimmen

Ergebnis des MS

...AVFFPAPMLLYR...

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Analyse

Proteinidentifikation

Proteinisolierung

Proteintrennung

Proteinextraktion

39

Ref-Datenbank

MS

Ausschneiden

2D-GE

Zusammenfassung: Kompletter Workflow

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– ESI – Electrospray Ionisierung – Tandem MS/MS mit De Novo Sequenzierung – Fourier Transform Mass Spectrometer – magnetische Isolierung, extreme Genauigkeit – ...

• Intensiv beforschtes Gebiet • Viele Varianten von MS

Weiterentwicklungen

40

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Bekannte Proteine (Datenbank) „in silico“ verdauen – Theoretische Spektren Si berechnen – Für alle Si: Ähnlichkeit sim(S,Si) berechnen – Beste Si ausgeben 41

• Eingabe: Spektrum S (Peptid Fingerprint) • Ausgabe: Protein ID • Prinzipielles Vorgehen

Teil III. Algorithmen zur Proteinidentifikation

Vergleich

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Theoretische Vorhersage

Experimentelle Messung

Übersicht

42

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

43

– Sehr unwahrscheinlicher Worst-Case (Alle Si mit identischen Peptiden identisch zu S) – Average-case ist O(|S|) (Bei Vorberechnung von P)

• Komplexität: O(|S|*n)

– Für alle i: Si∈P[p]: M[i] = M[i] + 1

• Berechne Array P: P[k] = {Si | k ∈ Si} • Setze M[i] = 0, i < n • Für alle p ∈ S

– S = {p1,...pm} – Si = {pi1,...pik(i)}, i < n

• Eingabe:

Einfacher Algorithmus: Hitcount

S1 S2 S3 S4 S

= = = = =

[5,8,9,14,18] [3,5,9,12] [4,8,16,17,20] [1,7,9,17] [7,8,14,16,17]

– – – –

= = = =

1,2,4 3

1,3 ∅

1 (8) + 1 (14) 0 1 (8) + 1 (16) + 1 (17) 1 (7) + 1 (17)

∅

4

2 0 3 2

1

∅

∅ 3,4

3

2

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

sim(S1,S) sim(S2,S) sim(S3,S) sim(S4,S)

• Bewertung

• Vorberechnetes Array

– – – – –

• Datenbank

Beispiel

∅

2

1,2

3

∅

∅

44

-

1

4

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

45

Oft reichen 4 - 5 Hits Wie signifikant sind Hits?

– X-Achse: Peptidmasse, zwischen 1000 und 5000 Dalton – Y-Achse: Anz. Peptide, zwischen 0 und 7000, (log)

• Anzahl matchender Peptide (Trypsin) nach Masse

– Hits geringer Peptidmassen weniger signifikant – Lange Proteine zerfallen in mehr Peptide- höhere Chance f. Hits

• Direkte Hits sehr selten • Statistische Effekte

Schwierigkeiten

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

¾ Vergleich scheitert 46

– Enzyme haben nicht 100% Erfolg – Enzyme arbeiten nicht exakt wie gewünscht (Struktur / Sequenz des Proteins beeinflusst Wirkungsgrad) – DNA Datenbanken haben Fehler – falsche Proteinsequenz – falsches theoretisches Peptid (Schlimmer: Frameshift) – Posttranslationale Modifikationen – entfernen von Proteinteilen – „falsche“ gemessene Peptide

• Probleme

Mehr Probleme

9

18

21

30

28

18

32

9

21

9

12

18

21

30 47

MRANSYRFLKASSLSKVVVSKLALLIPE

12

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

12

15 26 18 32 8 23 MRANSYRFLKSSLSKVVVSKLALLIPE

• Trypsin: Nach Lysin (K) und Arginin (A)

– Kein Verdau an definierten Schnittstellen – Beliebige Peptide (aus Proteinsequenz)

• Idee

Beliebige Schnitte

Gegeben: String S über Alphabet A Jeder Buchstabe a∈A hat Gewicht w(a)→Ν Gegeben: eine Zahl M Gesucht: Substring s∈S so dass w(s)=M

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Ideen ?

– – – –

• Abstrakte Darstellung

One-String-Mass-Finding

48

[CEL+02]

r>|S|: Exit (Failure) wM: Schritt 4

– – – –

Exit (Failure) Schritt 3 Exit (Success) Schritt 4

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

l=r: wM:

4. w=w-w(S[l]); l = l+1

– – – –

1. Zwei Pointer l,r auf String S, l=r=1 2. Bereich [l,r]∈S ist Kandidat für s; Sei w=S[1] 3. r = r+1; w=w+w(S[r])

Algorithmus 2: LINSEARCH

49

• • • • r 1 2 3 4 4 5 5 6 6 7

l 1 1 1 1 2 2 3 3 4 4

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Konstanter Platz • O(n) Laufzeit • Besser ?

A={a,b,c,d} w(a) = 5, ... 6, 7, 8 S= adbaccdbdadcb M=22

Beispiel

accd

acc

bacc

bac

dbac

dba

adba

adb

ad

a

s

50

27

19

25

18

26

19

24

19

13

5

w(s)

• • • • •

(

)

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

i =1

= 1+ ∑ n *i + n + i2 − i + n

n -2

i =1

= 1 + ∑ ((i + 1) * (n − i ) ) + n

n -2

51

Besser ?

1 + 2 * (n - 1) + 3(n - 2) + ... + (n - 1) * 2 + n

Alle w(s) mit s∈S vorberechnen In sortiertem Baum speichern Laufzeit: O(log(n)) Speicher: O(n2) Wie viele s∈S gibt es ?

Variante: BINSEARCH

– – – – –

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Springt in Blöcken der Länge b durch S Geringfügige Laufzeitverbesserung Immenser Platzbedarf (in |A|2b) Lohnt erst ab SEHR großen Strings Aber: Durchschnittliche Proteinlänge: 447 aa

• [CEL+02]: LOOKUP

– Laufzeit: Konstant

• w(s) in Array der Größe |S|*max(w(a)) speichern

Varianten

52

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

53

– Frameshifts in DNA – Protein Übersetzung – SWISS-PROT speichert Consensussequenzen – ohne Variationen. Besser: Non-Redundant Datasets NLR3D, OWL, ...

• Probleme/Fehler in Datenbanken

– Isotope – Peptidmassen sind nicht fest – Modifikationen: Phosporylierung, Glycosylierung, ... – Messfehler, ungenaue MS-Kalibrierung

• Geringe Gewichtsänderungen (weniger als AA)

Mehr „aber“ ...

?

21

9

28

18

32

9

21

21

MRANSYRFLKASSLSKVVVSKLALLIPE

12

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

SRANSYR

9

– Proteinlänge nicht berücksichtigt – Lange Proteine haben höhere Grundwahrscheinlichkeit, ein bestimmtes Peptid zu enthalten – Relative Häufigkeit von Peptiden nicht beachtet

• Statistischer Bias

Noch mehr aber ...

54

21

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

? 55

...SYRFLKASSLSKMRANSYRFLKASSLSKMRANSYRFLKASSLSKVVVSKLALLI...

21

– Keine Garantie, das Spektrum in DB enthalten – Wahrscheinlichste Protein in DB ≠ Absolute Wahrscheinlichkeit

• Keine Einschätzung der Güte des Ergebnis

Noch mehr aber ...

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Diverse weitere Algorithmen: MASCOT, PeptIdent, ProteinProspector, ...

– ProFound – Bayes-basiert – Beachtung Messfehler, Proteingröße und Peptidhäufigkeiten

¾ Wahrscheinlichkeitsbasierte Verfahren

– MOWSE – Matches mit Score – Beachtung Peptidhäufigkeit und Proteinmasse

¾ Heuristische Korrekturfaktoren

Praktische Algorithmen

56

Proteine in 10 KD-Schritten in Gruppen einteilen Pro Gruppe Zellen in 100 Da Schritte bilden Peptidhäufigkeit in Zelle pro Gruppe zählen Sei P‘ ein Match für Spektrum S, P‘ ∈ P, P in Gruppe G, P‘ in Zelle Z von G Zähle 1/freq(Z) zum Score von P

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Gesamtscore P mit Proteinmasse skalieren

– – – – – –

57

[PHB93]

• Match: Abweichung um 1-2 Dalton erlaubt • Matchscore berechnen

MOWSE: Molecular Weight Search

0.4 0.3 0.2 0.1

Z1: 0-100 Z2: 100-200 Z3: 200-300 Z4: 300-400

P1 P2 ...

PA PB ...

?

PA:

P1:

310

P2:

58

{90, 310} 0.5 + 0.3

{70, 240, 350} 0.4 + 0 + 0.1

{60, 130, 320} 0.5 + 0 + 0.3

90

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

0.5 0.2 0.1 0.3

Z1: 0-100 Z2: 100-200 Z3: 200-300 Z4: 300-400

Häufigkeiten

Zellen

Gruppe

MOWSE Illustration

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Willkürliche Grenzen Heuristische Skalierungen Keine Messungenauigkeiten oder Isotope Keine Beachtung von Misses Keine Beachtung von Genauigkeit innerhalb Gruppe / Zelle • Keine Signifikanz des Ergebnisses

• • • • •

Eigenschaften

59

[ZC00]

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Annahme: Normalverteilung der Peptidmassen

p( P) * p( S | P) P( P | S ) = p(S )

• Protein P, Spektrum S

p ( A ∧ B) = p ( A) * P ( B | A) = p ( B) * p ( A | B )

• Bayes‘sche Wahrscheinlichkeit

ProFound

60

• • • •

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

61

Wie viele der vorhergesagten Peptide sind vorhanden? Über alle Peptide mit Hits im Spektrum Über alle Matches zu einem Peptid Wahrscheinlichkeit der Abweichung nach Normalverteilung

ProFound komplett

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

62

• Vergleich nur innerhalb Datenbank (Hintergrundwissen) • Kein Abgleich mit Wahrscheinlichkeit zufälliger Hits • Keine Signifikanz ableitbar

Eigenschaften

• • • •

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Kurze Peptide sehr häufig Viele zufällige Hits Geringe Aussagekraft für Identifikation Mascot: Weiterentwicklung von MOWSE

Quelle: PPCP99

Peptidhäufigkeiten

63

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

¾ Schnelle Entwicklung

– Individuelle Modifikationen – Mutationen in Aminosäuren – Systematische Messfehler

64

• Meist nur Ergebnisse relativ zur Vergleichsdatenbank • Keine Güte über Experimente ableitbar • Hohe Geschwindigkeitsanforderungen im Hochdurchsatz (1-10 Sekunden) • Unberücksichtigte Faktoren

– Simple Hit Count – Scored Hit Count – Wahrscheinlichkeitsbasiert

• Verschiedene Komplexitätsgrade

Zusammenfassung

•

•

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

1. MS zur Peptidisolierung 2. Zerbrechen der Peptide an zufälliger Stelle 3. MS zur Auftrennung der Fragmente

Drei Schritte

– Höhere Genauigkeit bei Peptididentifikation – Sequenzieren von Peptide greifbar

Neue Entwicklung

Einschub: MS/MS Verfahren

65

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

66

– Alle Teilsequenzen werden erzeugt – Suche nach Peaks mit Abständen entsprechend der Masse einer Aminosäure

• Alle Peptidbrücken gleich wahrscheinlich

• Peptide haben bevorzugte Bruchstellen: die Peptidbrücken

Peptidbindung und Fragmente

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Die „Ladder“

67

• • • •

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Kurze Teilsequenzen bestimmen – In Proteindatenbank suchen

Sehr schwierig bei repetitiven Proteinen De Novo Sequenzierung noch experimentell Deutlich größere Rechenzeit Benutzung zur Proteinidentifikation

MS/MS

68

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Proteomics-Experimente • Proteindatenbanken

Teil IV. Datenmodelle

69

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

70

– Stärkere Workflowausrichtung (mehrstufiger Prozess) – Abhängigkeit von Proteinsequenzdatenbank

• Unterschiede zu Gen-Expressionsdatenbanken

• Massenspektroskopie • Protein – Protein Interaktion

– Noch keine öffentlichen Repositories für Spektren – Noch keine Standards zur Beschreibung von Experimenten und Protokollen – HUPO: Human Proteome Organisation – PSI: Proteomics Standard Initiative

• Neues Gebiet

Proteomics Datenmodelle

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Quelle: Paton/Goble, VLDB Tutorial 2001

Beispielmodell

71

4 3

5 7

8

9

10

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

72

Probenherkunft – Probe – 2D Gel: Proteinauftrennung – Protein – Verdau des Proteins (Zerschneidung) – Massenspektroskopie – Peakmessung – Vergleich – Identifiziertes Peptid

1

2

6

Beispielmodell

6

1 2

7

5

8

4

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

MS – Verfahren und Parameter

Probenerzeugung

PEDRo Modell

73

MS und MS/MS

Peaks und Identifikation

Quelle: pedro.man.ac.uk

9

3

Separierungsmethoden

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

74

– Experimente sind nicht vergleichbar – Und werden auch bei genauer Beschreibung nicht vergleichbar

• Nach keine Standards (PEDRo ist ein Versuch) • Unklarer Nutzen vieler Metadaten

– Constraints – Zustandsübergange – Workflow

• Noch keine Vergleiche / Erfahrungsberichte verfügbar • Keine Modellierung der Dynamik der Prozesse

Bewertung

Sequenz steht im Mittelpunkt Metadaten: Autor, Version, Taxonomie, ... Featuretable mit Annotation zu Teilsequenzen Cross-Referenzen

– – – –

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Traditionell Flatfile Format Oracle DUMPs verfügbar (ca. 140 Tabellen) XML verfügbar Keine Änderungsübersicht !

• Datenmodell von EMBL und SP fast gleich • SWISS-PROT

– – – –

• Sehr ähnlich zu Sequenzdatenbanken

Protein Datenmodelle

75

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• SWISS-PROT • InterPro • PDB

Teil V. Datenbanken

76

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Automatische Generierung und Annotation • SP-TrEMBL: Wird mal nach SWISS-PROT kommen • REM-TrEMBL Wird nicht nach SP kommen (Redundant, synthetitisch, Immunoproteine, ...)

77

– SWISS-PROT: Curierte Sequenzen, kontinuierliche Verbesserung – TrEMBL: Übersetzung aller CDS – Sequenzen aus EMBL

• Aufsplittung der Daten

– > 30 „Scientific Database Curators“ – Redundanzfreiheit – Vierteljährliche Releases

• Datenbank für Proteinsequenzen • Swiss Institute of Bioinformatics und EBI • Aktive, kontinuierliche Verbesserung der Daten

SWISS-PROT

TrEMBLnew

Quelle: www.ebi.ac.uk/swissprot

Variants,conflicts...

Sub-fragment matches

Identical matches

Redundancy checks

Automatic annotation (Prosite,PFAM, Rulebase, ENZYME, MGD, Flybase…)

Truncated.dat

78

124.000

SWISS-PROT

TrEMBL

860.770

REM-TrEMBL Smalls.dat Synth.dat Pseudo.dat Immuno.dat Patent.dat

SP-TrEMBL

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

protein_id in SP+TrEMBL

CDS scanning, translation and SWISS-PROT formatting

EMBLNEW flatfile

TrEMBL Herstellung

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

79

• Einträge oft Mischung aus Controlled Vocabularies und Freitext • Seit kurzem: Evidence Codes für alle Annotationen (Curator, Opinion, By Similarity, Experiment, ...)

– Ca. 800 verschiedene Keywords

• KW: Keywords

– Modifikationen, Sequenzabschnitte, Sekundärstruktur – Splice Varianten, Konflikte, Phosphorylierung, ...

• FT: Feature Table

– Unterteilt in Topics – Beispiele: Caution, Disease, Function, Regulation, ...

• CC: Kommentare

Annotation in SWISS-PROT

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Last Update – Keine Änderungsübersichten

• Keine Versionen von Einträgen

• Primäre ID • Kann mehrere Einträge enthalten (Merged Entries)

– AC: Accession Number

80

• Keine Standards für Proteinnamen • Spezies mit wissenschaftlichen / umgangssprachlichen Name

– ID: X_Y; X: „Name“ des Proteins; Y: „Name“ der Spezies

• Swiss-Prot Release ca. alle 3 Monate • ID und AC Line

Versionierung und Identifikation

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Swiss-Prot Relational

81

PROSITE: Reguläre Ausdücke PRINTS: Multiple Sequence Alignments PFAM: Hidden Markov Models PROFILE: Gewichtete MSA Blöcke

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

82

• Interpro: Integrierte Datenbank von Proteindomänen

– – – –

• Beispiele

– Bestimmte Sequenzabschnitte (Domänen, Motivs) bestimmen Funktion des Proteins – Datenbanken zur Beschreibung interessanter Domänen – Untersuchung neuer Sequenzen auf Vorhandensein bekannter Domänen – Rückschlüsse auf Funktion

• Sekundärdatenbank zu Proteinsequenzen • Ziel

InterPro

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

InterPro Generierung

83

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– Redundante Einträge – Sub/Superdomänen –Relationen zwischen Entries

• Größtenteils manuelles Verfahren

– Aber: Zusammenhänge repräsentieren

• Quellen bleiben eigenständig • Regelmäßige Aktualisierungen • Jeder Entry der Quelle wird Entry in InterPro

InterPro Integration

84

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

– mmCIF / OpenMMS – Umformatierung, Datenverbesserung, RDBMS – MSD (EBI) – RDBMS, Konsistenzchecks, geometrische Validierung 85

• Verschiedene Bemühungen zur Verbesserung

– Entstanden aus Buch Anfang der 60er – Mehrere Formatänderungen – Archivmodell, keine Datenmanipulationen

• Repository aller Protein 3D Strukturen • Entry-Based Legacy Database

Proteinstrukturdatenbank

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• Sehr oft Rückgriff auf Originalliteratur notwendig

– Ergänzung fehlender Werte (Referenzen) – Konsistenzchecks (Wertebereiche, Plausibilität) – Ersetzung durch Vorzugsbegriffe mit Synonymwörterbuch

• Record by Record

– Einheitliche Taxonomie, Beschreibung von Ketten und Liganden

• File by File nach Proteinfamilien

Data Cleansing Prozess

86

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

Quelle: [BBF+01]

Erfolge

87

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

• ... und viele mehr

– Enthält: SWISS-PROT, PIR, GenBank

88

– Nicht-redundante Sammling von Proteinsequenzen

• OWL

– Beinhaltet PIR, SWISS-PROT und TrEMBL – Ablösung einer langen Parallelentwicklung – Erster Release noch nicht verfügbar

• UniProt

Others

•

•

•

•

•

•

•

•

•

Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe 2003

89

[ATB+01] Apweiler, R., Attwood, T. K., et al. (2001). "The InterPro Database, an Integrated Documentation Resource for Protein Families, Domains and Functional Sites." Nucleic Acids Research 29(1): 37-40. [CEL+02] Cieliebak, M., Erlebach, et al. (2002). "Algorithmic Complexity of Protein Identification: Searching in Weighted Strings". TCS 2002, pp. 143-156. [PHB93] Pappin, D. J. C., Hojrup, P. and Bleasby, A. J. (1993). "Rapid identification of proteins by peptide-mass fingerprinting." Current Biology 3(327-332). [ZC00] Zhang, W. and Chait, B. T. (2000). "ProFound: an expert system for protein identification using mass spectrometric peptide mapping information." Anal Chem 72(11): 2482-9. [KR03] Krane, D. E. and Raymer, M. L. (2003). "Fundamental Concepts of Bioinformatics", Benjamine Cummings (Kapitel 8). [ATB+01] Apweiler, R., Attwood, T. K., Bairoch, A., et al. (2001). "The InterPro Database, an Integrated Documentation Resource for Protein Families, Domains and Functional Sites." Nucleic Acids Research 29(1): 37-40. [BBF+01] Bhat, T. N., Bourne, P., Feng, Z., et al. (2001). "The PDB data uniformity project." Nucleic Acids Res 29(1): 214-8. [BDF+03] Boutselakis, H., Dimitropoulos, D., Fillon, J., et al. (2003). "E-MSD: the European Bioinformatics Institute Macromolecular Structure Database." Nucleic Acids Res 31(1): 458-62. [TPG+03] Taylor, C. F., Paton, N. W., Garwood, et al. (2003). "A systematic approach to modeling, capturing, and disseminating proteomics experimental data." Nat Biotechnol 21(3): 247-54.

Literatur