Extraktion von prädikativen Präpositionalphrasen aus deutschen ...

auf Mehrwortausdrücke bedeutet das, das sie meist in einer bestimmten Form auftreten, die den üblichen Regeln der .... gegeben werden sollten. ...... Das Wissen über die Kasusrektion der Präpositionen wurde ins Programm zur Wei-.
576KB Größe 9 Downloads 227 Ansichten
Universität Stuttgart Institut für maschinelle Sprachverarbeitung Azenbergstraße 12 D - 70174 Stuttgart

Studienarbeit Nr. 76

Extraktion von prädikativen Präpositionalphrasen aus deutschen Korpora

Betreuer: PD Dr. phil. habil. Ulrich Heid, apl. Prof. Prüfer: PD Dr. phil. habil. Ulrich Heid, apl. Prof. Bearbeitung: Anita Gojun Begin: 28. Januar 2009 Ende: 30. März 2009

Hiermit erkläre ich, dass ich die vorliegende Arbeit selbständig verfasst habe und dabei keine andere als die angegebene Literatur verwendet habe. Alle Zitate und sinngemäßen Entlehnungen sind als solche unter genauer Angabe der Quelle gekennzeichnet.

Inhaltsverzeichnis 1 Einleitung 1.1 Mehrwortausdrücke und Kollokationen . . . . . . . . . . . . . . . . . . . 1.2 Prädikative Präpositionalphrasen als Mehrwortausdrücke . . . . . . . . . 1.3 Kurze Vorstellung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . .

2 2 3 4

2 Prädikative Konstruktionen 2.1 Begriffserklärungen . . . . . . . . . . . . . . . . . . . . . . 2.2 Prädikative Präpositionalphrasen . . . . . . . . . . . . . . 2.2.1 Tests zur Bestimmung der Prädikative . . . . . . . 2.2.2 Abgrenzung der prädikativen Präpositionalphrasen Arten der Präpositionalphrasen . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . von anderen . . . . . . . .

6 6 9 9 11

3 Extraktion der prädikativen Präpositionalphrasen 3.1 Korpora und Korpusannotationen . . . . . . . . . . . . 3.2 Extraktion mit Hilfe eines CQP-Macros . . . . . . . . . 3.3 Speicherung der extrahierten Daten in einer Datenbank 3.3.1 Aufbau der Datenbank . . . . . . . . . . . . . . 3.3.2 Gespeicherte Merkmale der PPen . . . . . . . . 3.3.3 Zugriff auf gespeicherte Daten . . . . . . . . . . 3.4 Probleme bei der Verwendung extrahierter Attribute . 3.4.1 Korrektur der Kasuswerte . . . . . . . . . . . . 3.4.2 Nullartikel . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

13 13 14 16 16 18 23 23 24 26

4 Morphosyntaktische Präferenzen der Präpositionalphrasen 4.1 Morphosyntaktische Präferenzen als Indikatoren für Idiome 4.1.1 Morphosyntaktische Restriktionen . . . . . . . . . . 4.1.2 Lexikalische Unveränderbarkeit . . . . . . . . . . . 4.2 Gruppen von Präpositionalphrasen . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

29 30 30 39 40

5 Verwendung extrahierter Präpositionalphrasen 5.1 Textproduktion . . . . . . . . . . . . . . . . 5.2 Textrezeption . . . . . . . . . . . . . . . . . 5.3 Textgenerierung - maschinelle Übersetzung . 5.4 Parsing . . . . . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

46 46 47 47 47

6 Ausblick

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . .

. . . .

. . . .

49

1

1 Einleitung 1.1 Mehrwortausdrücke und Kollokationen Ein Mehrwortausdruck wird definiert als ein Ausdruck, der mindestens einen Bindestrich oder ein Leerzeichen beinhaltet [Seelbach 1999]. Mehrwortausdrücke sind lexikalische Wortkombinationen, die wegen bestimmter idiosynkratischer Eigenschaften lexikalisiert werden müssen. Unter einer idiosynkratischen Eigenschaft versteht man das Phänomen, dass bestimmte Eigenschaften nicht aus allgemeinen Regeln ableitbar sind. Im Bezug auf Mehrwortausdrücke bedeutet das, das sie meist in einer bestimmten Form auftreten, die den üblichen Regeln der Grammatik nicht unbedigt entsprechen muss. Dies soll das Beispiel in (1) verdeutlichen. (1) Ohne die Stellen sieht die AGAB ihre Existenz in Frage gestellt. Im Deutschen werden Nomina mit ihren Artikeln benutzt, allerdings ist dies in (1) nicht der Fall. Würde man in diesem Kontext den Artikel (bestimmten sowie unbestimmten) verwenden, also in der/einer Frage gestellt, würde sich der Satz nicht mehr natürlich anhören. Genau dies soll bei einer automatischen Textgenerierung vermieden werden. Der Term Mehrwortausdruck wird oft synonym zum Begriff der Kollokation benutzt. "Collocation is an expression consisting of two or more words that correspond to some conventional way of saying things."[Manning/Schütze 2000]. Nach der obigen Definition sind Kollokationen häufige Wortverbindungen bestehend aus zwei oder mehreren Wörtern, die üblicherweise dazu benutzt werden, um etwas bestimmtes auszudrücken. Meist ist es nicht ersichtlich, warum gerade eine solche Wortfolge benutzt wird, doch sind es Ausdrücke, die alle Muttersprachler kennen und verwenden. Manning und Schütze unterscheiden drei Haupteigenschaften der Kollokationen, die auch auf Mehrwortausdrücke zutreffen [Manning/Schütze 2000]: • Nicht-Kompositionalität: die Bedeutung des gesamten Ausdrucks kann nicht aus der Bedeutung seiner Bausteine abgeleitet werden, wie es das Kompositionalitätsprinzip der Sprache suggeriert • Nicht-Substituierbarkeit: die Bausteine einer Kollokation können nicht durch andere Wörter ersetzt werden, selbst, wenn diese im Kontext passend wären • Nicht-Modifizierbarkeit: viele Kollokationen können nicht frei durch zusätzliches lexikalisches Material bzw. durch grammatische Transformationen ergänzt und geändert werden Die Nicht-Kompositionalität von Mehrwortausdrücken zeigt folgender Satz: (2) Der Mann pocht auf sein Recht. In (2) heißt pocht auf sein Recht nicht, dass jemand sein Recht schlägt oder klopft, was pochen normalerweise bedeuten würde, sondern auf seinem Recht besteht. Die Bedeutung

2

des gesamten Ausdrucks kann demnach nicht aus der Bedeutung der den Ausdruck bildenden Wörter abgeleitet werden. Die Phrase auf sein Recht pochen gehört zu der Gruppe der idiomatischen Redewendungen, die eine besonders starke Tendenz zur NichtModifizierbarkeit aufweisen. Die Nicht-Substituierbarkeit bezieht sich auf die Ersetzung eines Wortes durch ein anderes. (3) Er ist mit dem Geld schon über alle Berge. Die Ersetzung von alle durch beispielsweise das synonyme Wort sämtliche würde zu einem Ausdruck des Deutschen führen, den ein Muttersprachler so nicht benutzen würde, nämlich über sämtliche Berge. Was die Nicht-Modifizierbarkeit der Mehrwortausdrücke bedeutet, wurde bereits am Beispiel (1) gezeigt. Solche festen Wortfolgen sind in der Sprache sehr zahlreich und werden von den Muttersprachlern oft benutzt. Wegen ihrer eingeschränkten Modifizierbarkeit und NichtKompositionalität führen sie allerdings zu Problemen, wenn ein Text in einer bestimmten Sprache generiert werden soll (Textgenerierung), oder wenn sie in eine andere Sprache zu übersetzen sind (maschinelle Übersetzung). Bei diesen computerlinguistischen Anwendungen möchte man einen Text erzeugen, der natürlich klingt und keine nichtgebräuchlichen Wortfolgen enthält (ein Urteil fällen vs. *ein Urteil bringen). Aus diesem Grund ist die Identifizierung solcher Ausdrücke und ihre Lexikalisierung, also Erfassung und Beschreibung im Lexikon, notwendig.

1.2 Prädikative Präpositionalphrasen als Mehrwortausdrücke Die prädikativen Präpositionalphrasen können als Mehrwortausdrücke aufgefasst werden, die mit bestimmten Verben, den sog. Kopulaverben (siehe Kapitel 2.1), vorkommen. Sie zeigen starke Präferenzen bezüglich ihrer morphosyntaktischen Eigenschaften, die in Beziehung zu den im vorigen Abschnitt aufgeführten Kollokationskriterien gesetzt werden können (Nicht-Modifizierbarkeit, Nicht-Substituierbarkeit). Unter den morphosyntaktischen Eigenschaften versteht man unter anderem die Definitheit, den Numerus, Kasus und Subkategorisierungsrahmen eines Wortes oder einer Phrase. Die prädikativen Präpositionalphrasen werden außerdem oft idiomatisch benutzt (NichtKompositionalität). Betrachten wir hierzu die folgenden drei Sätze. (4) Das ist für die Katz! (5) Die sogenannte Machbarkeitsstudie ist in Ordnung. (6) Die sind nicht in der Lage, die gleichen Texte zu lesen. Der Satz in (4) bedeutet, dass etwas umsonst, vergeblich ist. Wenn man allerdings statt Katz die übliche Akkusativform des Kopfnomens benutzen würde, also Katze, würde man (ohne weiteren Kontext) den Satz so verstehen, als wäre etwas für eine Katze, also das Tier, das das Nomen Katze bezeichnet. Die Nominalphrase die Katz kommt in der in (4) illustrierten prädikativen Präpositionalphrase immer definit (mit dem bestimmten

3

Artikel) und im Singular vor. Der Satz in (5) zeigt, wie die prädikative Präpositionalphrase in Ordnung benutzt wird. Als ein Prädikativ (siehe Kapitel 2.1) kommt sie niemals mit einem Artikel vor, und das Kopfnomen der zur Präpositionalphrase gehörenden Nominalphrase Ordnung ist stets im Singular. Würde man beispielsweise in der Ordnung verwenden, würde der Ausdruck bedeuten, dass etwas in einer bestimmten Anordnung, Reihenfolge ist. Es käme also zu einer Bedeutungsänderung, d.h. zum Verlust der Idiomatizität. Manche Präpositionalphrasen weisen einen bestimmten Subkategorisierungsrahmen auf. Die Phrase in (6) in der Lage sein erfordert einen zu-Infinitiv, ohne den sie in dieser Form nicht auftreten kann. Weiterhin können die Kopfnomina der Präpositionalphrasen durch einen Genitiv oder eine Koordination ergänzt werden. Sie können also weitere Elemente subkategorisieren. (7) Wir waren 45 Minuten lang außer Rand und Band. a. Ihre Geduld ist am Ende. b. Sie ist am Ende ihrer Kräfte. Während manche Ergänzungen obligatorisch sind (außer Rand und Band in (7), gibt es andererseits auch solche, deren Auftreten optional ist (am Ende (ihrer Kräfte) in (7a) bzw. (7b)). Diese Eigenschaften können aus den grammatikalischen Regeln nicht abgeleitet werden, weshalb die Eigenschaften für jede prädikative Präpositionalphrase im Lexikon angegeben werden sollten. Starke Einschränkungen bezüglich ihrer Änderbarkeit wie in (4) und (5) gezeigt, führen zu der Annahme, dass die Nicht-Modifizierbarkeit prädikativer Präpositionalphrasen (und auch anderer Ausdrücke) ein Indikator für ihre idiomatische Verwendung sind. In dieser Arbeit soll diese Hypothese überprüft werden.

1.3 Kurze Vorstellung der Arbeit Im Kapitel 1 wird die Überlegung beschrieben, warum die Extraktion und Lexikalisierung der prädikativen Präpositionalphrasen sowie Kollokationen allgemein nötig sind. Im Kapitel 2 wird erklärt, was unter einem prädikativen Ausdruck zu verstehen ist. Der Begriff des Kopulaverbs sowie der einer Kopula-Prädikativ-Konstruktion wird eingeführt und erläutert. Es werden verschiedene Typen der prädikativen Phrasen gezeigt, wobei auf die prädikativen Präpositionalphrasen näher eingegangen wird. Im Kapitel 3 wird gezeigt, in welcher Weise und mit welchen Werkzeugen die entsprechenden Phrasen aus einem großen Zeitungskorpus extrahiert und gespeichert worden sind. Viele der extrahierten Phrasen stellen relativ feste Ausdrücke des Deutschen dar, deren Elemente nicht nach Belieben geändert werden können. Wenn eine morphosyntaktische Änderung daran vorgenommen wird, kommt es oft zur Bedeutungsänderung. Diese Eigenschaft weisen besonders stark die idiomatisch benutzen Phrasen auf. Aus diesem Grund gelten die Festigkeitskriterien von Phrasen als Indikatoren für die Idiomatizität (vgl. [Higi-Wydler 1989] und [Burger 2007]). Im Kapitel 4 wird beschrieben, wie anhand der extrahierten Daten die Hypothese, dass die eingeschränkte Modifizierbarkeit

4

der prädikativen Präpositionalphrasen als ein Indikator für die Idiomatik gesehen wird, überprüft werden kann. Abschließend werden einige Bereiche der Computerlinguistik vorgestellt, in denen die extrahierten und lexikalisierten Phrasen Verwendung finden können.

5

2 Prädikative Konstruktionen 2.1 Begriffserklärungen Kopulaverb Unter einem Kopulaverb versteht man ein Verb mit minimaler eigener Bedeutung, das dazu dient, das Subjekt oder Objekt mit einem Prädikativ zu verbinden. Dass Kopulaverben keinen semantischen Beitrag zum Satz beisteuern, zeigen auch einige “Sätze” im Korpus. Das Korpus, in dem nach den prädikativen PPen gesucht worden ist, besteht aus Zeitungstexten (vgl. Kapitel 3.1), die auch Überschriften einzelner Artikel einschließen. Wenn eine prädikative Verbergänzung in der Überschrift vorkommt, wird das Kopulaverb, mit dem sie normalerweise auftreten würde, oft ausgelassen. (1) Wirtschaft weiter auf Talfahrt (2) Maß voll, Geduld am Ende Trotz des Auslassens des Verbs sein in (1) und (2) ist die Bedeutung der Überschriften klar, was als ein Beleg dafür gesehen werden kann, dass die Kopulaverben keine (oder nur minimale) eigene Bedeutung haben. Die prädikativen Ergänzungen eines Kopulaverbs können allerdings nicht ausgelassen werden, was folgende Sätze verdeutlichen. (3)

a. b.

Das Verhalten der Medien ist von äußerster Bedeutung. ? Das Verhalten der Medien ist.

(4)

a. b.

Sie heißt Maria. * Sie heißt.

Das Auslassen der ergänzenden Präpositionalphrase aus (3a) führt zu einer besonderen Interpretation des Prädikats und somit zu einer Bedeutungsänderung: Ohne das Prädikativ drückt die Kopula in (3b) nämlich die Existenz von Verhalten der Medien aus. Die Tilgung des Prädikativs in (4a) resultiert in einem ungrammatischen Satz (4b). Die Kopulaverben erfordern also eine prädikative Ergänzung. Da sie keine eigene lexikalische Bedeutung haben, können sie an ihre prädikativen Komplemente keine inhaltlichen Bedingungen stellen und ihnen auch keine Theta-Rolle (z.B. Agens, Patiens) zuweisen, wie es bei den Verbargumenten sonst der Fall ist [Steinitz 1997]. (5) [Er]SU BJ bringt [das Buch]OBJ . Das Subjekt des Satzes in (5) Er erhält vom Verb bringen die Rolle des Agens, also desjenigen, der die Aktion des Bringens vollführt, während das Objekt die Theta-Rolle des Patiens zugewiesen bekommt, da es das Objekt darstellt, auf dem die Aktion ausgeführt wird. Das Verb sein kann dem prädikativen Ausdruck von äußerster Bedeutung in (3a) keine semantische Rolle zuweisen, da es keine spezifische Eigenbedeutung hat. Es stellt lediglich eine Leerstelle für eine Prädikation bereit und bringt die Informationen über den Tempus und Modus des Satzes [Steinitz 1997].

6

Prädikativ Ein Prädikat, das im Deutschen aus genau einer finiten Verbform besteht, kann durch andere Wörter (weitere Verben sowie Wörter anderer Wortarten) erweitert werden. Solche erweiterten Prädikate werden auch mehrteilige Prädikate genannt. Den Teil eines mehrteiligen Prädikats, der nicht aus Verben besteht, nennt man ein Prädikativ(um). Prädikative treten bei bestimmten Klassen von Verben (Kopulaverben) auf, bezeichnen eine Eigenschaft des Subjekts oder des Objekts und charakterisieren nicht die Art und Weise einer Tätigkeit oder eines Vorgangs, wie es bei den adverbialen Verbergänzungen der Fall ist [Wikipedia]. Die folgenden Beispiele zeigen den Unterschied zwischen den prädikativen und adverbialen Verbergänzungen. (6) Das Verhalten der Medien ist von äußerster Wichtigkeit. (7) Maria ist schön. (8) Sie liest schnell. Die adverbiale Verbergänzung schnell aus (8) beschreibt näher den Vorgang des Lesens, während die Präpositionalphrase von äußerster Wichtigkeit aus (6) und das Adjektiv schön aus (7) eine Eigenschaft der Subjekte das Verhalten der Medien bzw. Maria darstellen. Aus der Sicht der Syntax können die prädikativen Verbergänzungen sowohl als Satzglieder (vor allem prädikative Nominal- und Präpositionalphrasen) als auch als Teile des Prädikats aufgefasst werden. Die Methoden der Permutation (Verschiebung der Satzteile) und Substitution (Ersetzung eines Satzteils durch andere Wörter) erlauben ihre Betrachtung als Satzglieder. (9)

a. b. c.

Er ist im Rennen. Im Rennen ist er. Er ist dabei.

Wenn eine Satzkonstituente im Satz verschoben sowie durch eines oder mehrere andere Wörter ersetzt werden kann, handelt es sich um ein Satzglied. Die Präpositionalphrase im Rennen aus (9a) kann vom Satzende an den Satzanfang verschoben werden (9b), wobei der Satz immer noch grammatisch ist. (9c) zeigt, dass sie auch durch ein anderes Wort ersetzt werden kann, wodurch das Kriterium der Substituierbarkeit erfüllt wird. Folglich kann im Rennen als ein Satzglied betrachtet werden. Zumeist werden die nichtverbalen Verbergänzungen allerdings als Teile des Prädikats interpretiert. Das liegt daran, dass die Kopulaverben, mit denen die Prädikative auftreten (wie in (6) und (7)) semantisch “leer” sind [Brandt 2006]. Sie sind keine Valenzträger, was heißt, dass sie keine Informationen zur Subkategorisierung (Forderung der Ergänzung wie z.B. des direkten Objekts), Selektion (semantische Anforderungen an die Komplemente) und Lizensierung (z.B. gültiger Kasus) liefern. Diese Information kommt vielmehr von dem Nomen (bei den prädikativen Präpositionalphrasen-Ergänzungen) oder Adjektiv (bei den prädikativen Adjektivalphrasen-Ergänzungen). So kann sich beispielsweise der prädikative Ausdruck bei (ADJ) Gesundheit nur auf etwas Lebendes beziehen (Er/*Der

7

Tisch ist bei guter Gesundheit.). Diese Restriktion kommt nicht vom Verb sein sondern von der prädikativen Phrase selbst bzw. von ihrem lexikalisierten Element. Allerdings können solche Ergänzungen nicht alleine im Satz stehen und brauchen ein Verb, dessen alleinige Funktion ist, Informationen zum Tempus, Modus und Kongruenzmerkmalen bereitzustellen. Prädikative sind selbst nicht referierend, was bedeutet, dass kein Prädikat sich auf sie beziehen kann. Sie fungieren selber als einstellige Prädikate (Eigenschaften) über die Gegenstände, die durch das Subjekt oder Objekt denotiert werden. [Steinitz 1997] bezeichnet Prädikative als ein “spezielles Komplement ohne Argument-Status”. Sie weisen Eigenschaften auf, die sich von den Eigenschaften von Verbargumenten unterscheiden: Die Kopula stellt keine inhaltlichen Bedingungen an die Prädikative, sie sind nicht referierend und bekommen keine Theta-Rolle zugewiesen. Die einzige Bedingung der Kopula an ihre prädikative Ergänzung ist, dass es sich dabei um ein einstelliges Prädikat handeln muss, das das externe Argument1 des Verbs als Argument der Prädikation nimmt. Dabei handelt es sich um eine determinierende Phrase in der Subjekt- oder Objektposition, der eine Theta-Rolle zugeordnet werden kann. (10) Heidi ist eine Köchin. Der Nominalphrase Heidi in (10), die als Subjekt des Satzes fungiert, kann eine bestimmte semantische Rolle (Theta-Rolle) zugeordnet werden, nämlich die Agens-Rolle. Die prädikative Nominalphrase eine Köchin bzw. ihr Kopf Köchin, kann sich nun auf die Subjekt-NP beziehen und sie als Argument nehmen: Köchin(Heidi). Erst das Komplement der Kopula kann also auf Grund seiner spezifischen Eigensemantik dem externen Argument der Kopula eine Theta-Rolle zuweisen. Kurz gefasst handelt es sich bei den Prädikativen um die Komplemente der Kopula, die allerdings nicht in der Argument-Position stehen, der Gruppe der einstelligen Prädikate gehören und keine referierenden Ausdrücke darstellen [Steinitz 1997]. Kopula-Prädikativ-Konstruktion Die Kopula bildet zusammen mit ihrer prädikativen Ergänzung einen Verbalkomplex, der Kopula-Prädikativ-Konstruktion genannt wird [Altmann 2005]. Das prädikative Komplement der Kopula kann durch verschiedene Phrasen gebildet werden: • Nominalphrase (NP) (11) Er ist Vegetarier. • Adjektivphrase (AP) (12) Heidi ist müde. • Präpositionalphrase (PP) 1

Ein externes Argument befindet sich syntaktisch außerhalb der Phrase, die das Wort einschließt, das dieses Argument fordert. Beispielsweise sind Subjekte externe Argumente der Verben, da sie sich nicht in der Verbalphrase befinden ([[Er]DP [liest [ein Buch]N P ]V P )

8

(13) Heidi ist in der Schweiz gewesen. • Nebensatz (CP) (14) Dieses Haus ist, was er schon immer wollte. Laut [Maienborn 1999] drückt die Kopula-Verb-Konstruktion eine Situation bzw. einen Zustand aus. Die Prädikative können dabei eine temporäre Eigenschaft (12) bzw. ein permanentes Merkmal des referierenden Objektes darstellen (11).

2.2 Prädikative Präpositionalphrasen 2.2.1 Tests zur Bestimmung der Prädikative Nach [Seelbach 1999] werden zehn Klassen der prädikativen Ausdrücke unterschieden. Eine der Klassen bilden Prädikative auf nominaler Basis. In (15a) wird die Nominalphrase ein Mensch prädikativ verwendet, während in (15b) die Adverbialphrase (AdvP) allein die prädikative Verbergänzung darstellt. Des Weiteren können die prädikativen Verbergänzungen auf verbaler Basis sein wie es im Satz (15c) der Fall ist. Hier ist der Kopf der Verbergänzung zum Schreien der nominalisierte Infinitiv des Verbs schreien, es ist also ein verbales Element enthalten. Präpositionalphrasen (PPen), die für diese Arbeit von Interesse sind, können ebenfalls prädikativ benutzt werden, was die Sätze (15d) und (15e) zeigen. (15)

a. b. c. d. e.

Heidi ist ein Mensch. Er ist allein. Es ist zum Schreien. Heidi ist in Eile. Er bleibt am Ball.

Seelbach definiert solche prädikativen Phrasen durch verschiedene Tests: 1. Parallelen im distributionellen und transformationellen Verhalten mit einfachen Adjektiven • Kookkurrenz mit dem Verb sein Dies zeigen die Beispielsätze in (15d), (15e). Die prädikativen PPen können allerdings auch mit anderen Verben auftreten. Dazu gehören die typischen Vertreter der Kopulaverben bleiben und werden. Manche prädikativen PPen können auch mit scheinen (Es scheint an der Zeit, ...) vorkommen. • Pronominalisierbarkeit (16)

a. b.

Ist eine Lösung in Sicht? Ja, sie ist es. Bleibt er in Form? Ja, er bleibt es.

9

2. Parallelen und Unterschiede zu einfachen Adjektiven bei kausativen und aktionsartenspezifischen Stützverben2 • Ersetzung von sein durch das durative Stützverb bleiben (17)

a. b. c. d.

Er ist/bleibt bei Laune. Er ist/bleibt am Leben. Er ist/bleibt auf der Flucht. Die Polizei ist/bleibt vor Ort.

(18)

a. b.

Die Menschen sind/*bleiben aus dem Häuschen. Er ist/?bleibt über alle Berge.

Die meisten der extrahierten prädikativen PPen werden durch eine lokalisierende Präposition gebildet. Die Kopula sein kann nur bei den lokalisierenden situativen Prädikativen gegen bleiben ausgetauscht werden [Zifonun 1997]. Das sind PPen, deren Köpfe (die Präpositionen an, auf, außer, bei, hinter, in, neben, über, unter, vor usw.) mit Dativ vorkommen und die Antwort auf die Frage wo? liefern. Die Ersetzbarkeit solcher prädikativen PPen zeigen die Sätze in (17a-d). Bei den lokalisierenden PPen, die Antwort auf die Fragen woher? und wohin? geben, ist die Ersetzbarkeit von sein durch bleiben nicht gegeben wie es die Sätze (18a-b) zeigen. Bei den PPen mit anderen Präpositionen (ohne, mit, bei, für ) ist der Austausch von sein gegen bleiben in manchen Fällen möglich und in manchen nicht (Beispiele (19a-d)). (19)

a. b. c. d.

Das ist/bleibt ohne Bedeutung. Er ist/*bleibt mit seinem Latein am Ende. Er ist/bleibt bei der Sache. Das ist/?bleibt für die Katz.

• Auftreten mit dem durativen und kausativen Stützverb halten (20) Der Kranke kann sich nur mit Spenden über Wasser halten. • Auftreten mit dem kausativen Verb bringen (21) Er muss die Diskussion über Wissenschaftsethik in Gang bringen. • Auftreten mit inkohativen (Beginn ausdrückenden) Stützverben (22) Die Osterweihnacht kommt in Sicht. 3. Übernahme der Rolle einfacher Adjektive als morphologische Varianten von einfachen Verben und Nomina (bei gleichbleibender Verwendung) 2

[Gross 1988]: Stützverben sind Verben mit minimaler Bedeutung und beinhalten keine Selektionseinschränkungen. Es sind keine allgemeinen semantischen Aussagen über die Art typischer Subjekte bzw. Objekte möglich

10

Die prädikativen Ergänzungen können durch ihre morphologischen Varianten (Beispiele (23) und (24)) oder durch andere semantische Varianten in adjektivaler Form (Beispiel (25)) substituiert werden. (23) auf der Flucht (sein) = flüchtig (sein) (24) Angst (haben) um = in Angst (sein) um (25) am Ball (sein) = aktiv (sein) Die Stützverben sind laut Seelbach lexikalisch an die jeweiligen prädikativen Ausdrücke gebunden, was heißt, dass nicht alle der oben aufgezählten Punkte auf jede prädikative Präpositionalphrase zutreffen. Das bedeutet, dass die einzelnen Eigenschaften unter Umständen gelernt bzw. aus dem Korpus extrahiert, werden müssen. 2.2.2 Abgrenzung der prädikativen Präpositionalphrasen von anderen Arten der Präpositionalphrasen Mit Hilfe von Präpositionalphrasen werden Beziehungen zwischen Personen, Gegenständen und Sachverhalten ausgedrückt. Wir wollen allerdings in der vorliegenden Arbeit nur die PPen betrachten, die die Eigenschaften und keine Beziehungen zwischen Objekten ausdrücken. Aus diesem Grund ist die Abgrenzug der prädikativen PPen von den anderen (orts- und zeitbestimmenden, kausalen usw.) nötig. Im folgenden werden PPen vorgestellt, die für diese Arbeit nicht von Interesse sind. • lokale, temporale PPen (26)

a. b.

Marco steht auf dem Damm. Marco ist auf dem Damm.

(27)

a. b.

Der Film ist in zwei Stunden. Wir sind in Form.

Lokalisierende Präpositionen wie auf, in, neben, bei können mit einem Kopulaverb sowohl attributiv als auch adverbial auftreten. Die Präpositionalphrase auf dem Damm im Satz (26a) bedeutet, dass eine Person namens Marco sich auf einem Damm befindet. Sie wird adverbial benutzt und bezeichnet den Ort, auf dem sich das Subjekt befindet. Wenn man statt des Vollverbs stehen das Kopulaverb sein nimmt, bekommt die PP auf dem Damm auch die prädikative Funktion und bezeichnet nun eine Eigenschaft, nämlich die des Gesundseins des Subjekts. Die Präposition in wird in (27a) benutzt, um einen Zeitpunkt auszudrücken. In (27b) wird sie andererseits in Kombination mit der Nominalphrase Form benutzt, um eine Eigenschaft (körperlich fit) zu bezeichnen. Die adverbialen PPen wie in (26a) und (27a) sollen aus dem Ergebnis der Suche nach den prädikativen PPen im Korpus entfernt werden.

11

• an, bei + nominalisierter Infinitiv (28)

a. b.

Murphys größtes Pech ist, dass seine Spezies hoffnungslos am Aussterben ist. Marco ist beim Telefonieren.

Mit dem Kopulaverb sein kommen häufig die PPen der Art an + nominalisierter Infinitiv vor, wie (28a) zeigt. Viele Verben können auf diese Weise mit der Präposition an vorkommen (am Schreiben, Lesen, Suchen, Trinken usw.). Das innerhalb der PP eingeschlossene Nomen kann attributiv (als Adjektiv) mit dem Nomen auftreten, auf das es sich bezieht (aussterbende Spezies). Die Adjektivform wird dabei aus dem Partizip Präsens des entsprechenden Verbs gebildet. Dasselbe wird bei der Präposition bei beobachtet. Das Kopfnomen der innerhalb der PP eingeschlossenen NP kann ebenfalls als Adjektiv mit dem Subjekt Marco auftreten (telefonierender Marco). Auch solche PPen werden in dieser Arbeit nicht weiter betrachtet. • werden + zu + Nomen (29)

a. b.

Der Polenmarkt wird zum Park. Der Film wurde zum Erfolg.

Das Verb werden kommt in den meisten Fällen mit der Präposition zu vor. Im Muster werden + zu + Nomen können beliebige Nomina auftreten, weshalb schließlich auch solche PPen für diese Arbeit nicht weiter interessant sind. Allerdings gibt es auch Ausnahmen, die man manuell von den restlichen PPen dieser Art trennen muss. In (29b) ist die PP zum Erfolg eine prädikative Präpositionalphrase, die in der Menge der extrahierten prädikativen PPen enthalten sein soll. Die oben dargestellten Beispiele zeigen, dass prädikative und adverbiale PPen die gleiche syntaktische Form haben. Dass beispielsweise die PP auf dem Holzweg prädikativ (und idiomatisch) ist, während die syntaktisch äquivalente PP auf dem Hügel eine ortsbestimmende Phrase darstellt, liegt an der lexikalischen Belegung der Komponenten, die die beiden Phrasen bilden. Aus diesem Grund ist eine manuelle Trennung der prädikativen von den adverbialen PPen notwendig. Alternativ könnten die häufigen morphosyntaktisch fixen Kombinationen als idiomatisch aufgefasst und als gute Kandidaten in die Liste der (idiomatischen) prädikativen Präpositionalphrasen aufgenommen werden. Eine solche automatische Erstellung der Kandidatenliste wurde allerdings im Rahmen dieser Arbeit nicht durchgeführt.

12

3 Extraktion der prädikativen Präpositionalphrasen 3.1 Korpora und Korpusannotationen Für die Extraktion der prädikativen PPen wurden vier Teile des HGC (Huge German Corpus) benutzt. Das HGC ist eine am Institut für Maschinelle Sprachverarbeitung (IMS) verfügbare Sammlung von Zeitungstexten, auf die eine Reihe von computerlinguistischen Programmen angewandt worden ist. Dazu gehört die Tokenisierung (Erkennung einzelner Wörter), POS-Tagging [Schmid 1994] (Zuordnung der Part-of-speech Tags zu den Wörtern), morphologische Analyse der Texte und schließlich das Chunking [Kermes 2003], das einzelne Phrasen wie Nominal- oder Präpositionalphrasen erkennt. Das Ergebnis dieser Analyseschritte ist ein mit vielen Annotationen angereicherter Text. Mit dem am IMS verfügbaren System namens CQP (Corpus Query Processor ) kann im vorverarbeiteten und in einem bestimmten Format gespeicherten Korpus nach bestimmten Mustern gesucht und auch auf die Annotationen aus den Vorprozessierungsschritten zugegriffen werden. So ist es möglich, nach bestimmten Phrasen zu suchen (z.B. Präpositionalphrasen) und sie sich mit verschiedenen Features (z.B. Phrasenkopf und morphosyntaktischen Features) ausgeben lassen, was für die Weiterverarbeitung extrahierter Daten sehr nützlich ist. Für die Extraktion der prädikativen PPen wurden Texte aus vier verschieden Zeitungen genommen, die in der Tabelle 1 aufgelistet sind. Zeitung Stuttgarter Zeitung Tageszeitung Frankfurter Rundschau Frankfurter Allgemeine Zeitung insgesamt

Anzahl der Wörter (Tokens) in Mio. 36 96 40 70 242

Tabelle 1: Größe der verwendeten Zeitungskorpora Die Tabelle 2 zeigt, welche Annotationen für die Weiterverarbeitung der im Rahmen dieser Studienarbeit extrahierten Daten nötig sind. Annotation lemma pos pp pp_h pp_agr

Verwendung lemmatisierte Form eines Tokens Part-of-Speech Tag Markierung der Grenzen einer PP Kopf einer PP (Präposition, Nomen) PP-Agreement (Kasus, Genus, Numerus, Definitheit)

Tabelle 2: Verwendete Korpusannotationen

13

3.2 Extraktion mit Hilfe eines CQP-Macros Für die Extraktion der prädikativen PPen wurde ein CQP-Macro geschrieben. Mit Hilfe des Macros wurde ein Subkorpus erstellt, das aus Sätzen besteht, die eine prädikative PP beinhalten. Das Macro ist wie in (1) gezeigt, aufgebaut. (1)

1. define macro pp_verb(1) 2. ’A1 = @[pos = "V.FIN" & lemma = "sein|bleiben|werden"] 3. ([]*)* 4. [pos = "AD.*|PTK.*|$"]* 5. []* 6. ([pos = "V.PP|VVINF" & lemma = "sein|bleiben|werden"])? within s; 7. A2 = [pos = "AD.*|PTK.*|$"]* 8. []* 9. ([pos = "V.PP|VVINF" & lemma = "sein|bleiben|werden"])? 10. @[pos = "V.FIN" & lemma = "sein|bleiben|werden"] within s; 11. A = union A1 A2; 12. set A keyword nearest [pos = "V.PP|V.INF"] within s; 13. B = subset A where keyword: [lemma != "sein|bleiben|werden"]; 14. C = difference A B; 15. $0 = C’;

Mit den Befehlen in den Zeilen 2 - 6 bzw. 7 - 10 werden zunächst Präpositionalphrasen in einem bestimmten Kontext gesucht. Um dies zu machen, werden die Phrasengrenzenmarkierungen, die vom Chunker stammen, benutzt (Zeilen 5 und 8). Dabei stellt den Anfang einer PP dar, während das Ende einer PP markiert. In der Variablen A1 werden alle PPen gespeichert, denen ein Kopulaverb vorangeht (Zeile 2), das von einer optionalen NP gefolgt wird (z.B. einer NP in der Subjektposition). Die PP selbst kann durch Adjektive, Adverbien oder Partikeln (z.B. Negation nicht) modifiziert werden (Zeile 4). Schließlich müssen noch die optionalen Infinitive bzw. Partizipien zugelassen werden (Zeile 6), da mit Hilfe der betreffenden Kopulaverben auch ihre Passiv-, Vergangenheits- und Zukunftsform gebildet wird. In diesem Schritt werden also PPen in den Verbzweit- ((2a und 2b) und Verberstsätzen (wie in (2c)) extrahiert. (2)

a. b.

Danton |{z} ist zwar nicht mehr ganz auf dem {zDamm}, aber ... | {z }| Zeile 2 Zeile 5 Zeile 4 Nun |{z} ist das 50jährige Rohstoffmoratorium im Kasten, ... {z } | {z } | Zeile 2 Zeile 5 Zeile 3

c.

Ist dieses |{z} | {z Ziel} noch {z }? | {z } im | Blickfeld Zeile 2 Zeile 3 Zeile 4 Zeile 5 In der Variablen A2 werden die PPen aus den Verbletztsätzen gespeichert. Auch diesen PPen können Modifikatoren voranstehen (Zeile 7), sie werden optional von einem Infinitiv oder Partizip gefolgt (Zeile 9), wonach die finite Form eines Kopulaverbs auftritt (siehe 3).

14

(3) ... daß ein paar hundert Kinder |auf der{zStrecke} bleiben | {z } werden | {z }, ... Zeile 8 Zeile 9 Zeile 10 Die in den Variablen A1 und A2 gespeicherten Subkorpora werden in Zeile 11 zu einem Subkorpus vereinigt, das in der Variablen A abgelegt ist. Mit dem Befehl in Zeile 12 wird das zur gefundenen PP am nächsten stehende finite Vollverb als Schlüsselwort (keyword ) markiert. Dies dient dazu, dass in Zeile 13 auf diese Verben zugegriffen werden kann. Allerdings haben wir immer noch nicht nur die PPen, die wir brauchen, denn die Verben sein und werden können auch als Hilfsverben vorkommen, wie die Beispiele (4), (5) und (6) zeigen. (4) Auch im Güterverkehr wurde viel versucht... (5) ... war seine Leitung in der Westschweiz auch auf Kritik gestoßen ... (6) ... weder bei der Malerin noch beim Modell etwas zu spüren ist ... Es müssen also zusätzlich noch Sätze ausgeschlossen werden, in denen mit Hilfe der betreffenden Verben Passiv-, Vergangenheits- und Zukunftsform eines anderen Vollverbs gebildet wird. Dies wird mit den Befehlen in den Zeilen 13 und 14 erreicht. Wenn als Schlüsselwort markierte Verbformen den gewünschten Kopulaverben nicht entsprechen, werden sie in das Subkorpus, das in B gespeichert wird, aufgenommen. Auf diese Weise wird ein Subkorpus gebildet, das Sätze enthält, deren Prädikate mit Hilfe eines Hilfsverbs gebildet werden. Allerdings soll das Subkorpus B nicht die Sätze enthalten, deren verbale Prädikate selbst die Kopulaverben im Futur, Passiv oder in der Vergangenheit sind, weshalb in Zeile 13 das Lemma des Schlüsselwortes negiert wird (alle Verben außer sein, bleiben, werden). Mit dem Befehl in Zeile 14 wird die Differenz der Mengen A und B gebildet. Die resultierende Menge der Sätze C stellt das gewünschte Subkorpus dar. In A sind also alle Sätze enthalten, in denen in der Nähe einer PP eines der Kopulaverben vorkommt, während B ein Subkorpus ist, in dessen Sätzen die Kopulaverben die Funktion eines Hilfsverbs haben. Mit der Differenz dieser beiden Subkorpora wird ein Subkorpus C erstellt, das größtenteils aus den prädikativen Sätzen besteht. Problematisch sind Sätze, bei denen ein adverbiales Adjektiv vorkommt, wie die Beispiele (7) und (8) zeigen. (7) ... in der ehemaligen DDR im Übermaß vorhanden sei. (8) Die Ausstellung ist bis zum 9. Juni geöffnet. Wenn man solche Sätze ausschließen möchte, indem man die Zeile 12 des Makros wie in (12a) gezeigt, erweitert, werden allerdings auch viele richtige Phrasen ausgeschlossen. 12a. set B target nearest [pos = "V.PP|V.INF|ADJD"] within s; Das Beispiel (9) zeigt einen solchen Fall. (9) ... war, trotz der Hitze, buchstäblich aus dem Häuschen.

15

Nach der in (12a) dargestellten Änderung des Macros kommt dieser Satz im Endsubkorpus nicht vor, da das Wort buchstäblich das POS-Tag eines prädikativen bzw. eines adverbial benutzten Adjektivs [Schiller/Teufel/Thielen 1995] hat und somit in den Subkorpus C gelangt, dessen Sätze wiederum im Endsubkorpus nicht vorkommen. In der Nähe vieler PPen sind solche Adverbien zu finden, was zum Verlust einer großen Anzahl der prädikativen PPen führen würde, wenn man die abgeänderte Version der Zeile 12 verwenden würde. Aus diesem Grund wurde darauf verzichtet.

3.3 Speicherung der extrahierten Daten in einer Datenbank 3.3.1 Aufbau der Datenbank Die extrahierten Daten wurden in einer Datenbank gespeichert. Es wurden zwei Tabellen angelegt: die Tabelle pp und die Tabelle pp_stat. Die Tabelle pp ist folgendermaßen aufgebaut: Spalte | Typ | Attribute ----------+-------------------+----------pp_lemma | character varying | not null praep | character varying | not null kopf_n | character varying | not null kopf_nwf | character varying | mod_in | character varying | koord_np | character varying | gen | character varying | chunk | text | mod_out | character varying | Spalten der Tabelle pp: • pp_lemma PP der Form pp:Kopfnomen • praep Präposition der PP • kopf_n Kopfnomen der NP in der PP • kopf_nwf Wortform des Kopfnomens der PP: interessant bei den Nomina, deren Dativ Singular die alte Dativform hat (z.B. im Schwange sein) • mod_in Modifikatoren (Adjektive, Adverbien, Pronomina), die sich innerhalb der PP befinden • koord_np Koordination, die dem Kopfnomen der PP folgt • gen GenitivNP, die dem Kopfnomen der PP folgt • chunk vollständige PP

16

• mod_out Modifikatoren (Adjektive, Adverbien, Pronomina), die der PP voranstehen Die Tabelleneinträge haben also folgende Form: pp_lemma|praep|kopf_n|kopf_nwf|mod_in|koord_np|gen| chunk |mod_out --------+-----+----- +--------+------+--------+---+---------------+------in:Gang | in |Gang | Gange |{voll}| | |in vollem Gange|{noch} an:Werk | an |Werk | | | | | am Werk | Falls ein Eintrag keinen Wert für ein Attribut hat, wie zum Beispiel koord_np bei in:Gang, bleibt die Spalte leer. Dies bedeutet, dass dieser Korpusbeleg für die PP mit dem Lemma in:Gang keine koordinierte NP und auch keine GenitivNP hat. Die Tabelle pp_stat beinhaltet ausgerechnete Wahrscheinlichkeiten zu den Verschiedenen Merkmalen der extrahierten PPen. Spalte | Typ | Attribute -----------+-------------------+----------anzahl | integer | not null pp_lemma | character varying | not null verb | text[] | praep_fus | text[] | alt_dat | text[] | kas | text[] | num | text[] | def | text[] | mod_in | text[] | mod_out | text[] | koord | text[] | gen | text[] | Die einzelnen Spalten haben folgende Bedeutungen und mögliche Werte: • anzahl Anzahl der extrahierten PPen mit einem bestimmten PP-Lemma • pp_lemma PP der Form pp:Kopfnomen • verb Die mit der PP auftretende Kopula • praep_fus Wahrscheinlichkeit der Fusion der Präposition mit dem Artikel (Fus = Fusion, Nofus = keine Fusion, NoApl = keine Fusion möglich) • alt_dat Wahrscheinlichkeit des alten Dativs (keine alte Dativform wird als leerer String, d.h. als doppeltes Anführungszeichen (” ”) dargestellt) • kas Wahrscheinlichkeitsverteilung der Kasuswerte (Gen = Genitiv, Dat = Dativ, Akk = Akkusativ)

17

• num Wahrscheinlichkeitsverteilung der Numeruswerte (Sg = Singular, Pl = Plural) • def Wahrscheinlichkeitsverteilung der Definitheitswerte der innerhalb der PP eingeschlossenen NP (Def = definit, Indef = indefinit, Nil = kein Artikel) • mod_in Wahrscheinlichkeitsverteilung der häufigsten inneren Modifikatoren (kein Modifikator wird als leerer String dargestellt) • mod_out Wahrscheinlichkeitsverteilung der häufigsten äußeren Modifikatoren (kein Modifikator wird als leerer String dargestellt) • koord Wahrscheinlichkeit einer Koordination, die dem Kopfnomen der betreffenden prädikativen PP folgt (keine Koordination wird als leerer String dargestellt) • gen Wahrscheinlichkeit einer GenitivNP, die dem Kopfnomen der betreffenden prädikativen PP folgt (keine GenitivNP wird als leerer String dargestellt) 3.3.2 Gespeicherte Merkmale der PPen Um die einzelnen Merkmale der PPen zu extrahieren und in die Tabellen zu speichern, wurden zwei Python-Programme3 geschrieben. Sie verarbeiten jede extrahierte PP, die für diese Arbeit von Interesse ist, einzeln. Die Programme gehen alle Elemente einer PP durch und identifizieren anhand der POS-Tags die Wortkategorien einzelner Wörter. Innere und äußere Modifikatoren Hierunter versteht man die Adjektive, Adverbien, Possessivpronomina und Negation, die entweder vor der PP stehen (äußere Modifikatoren) oder sich innerhalb der PP befinden und das Kopfnomen der darin enthaltenen NP modifizieren (innere Modifikatoren). Die Modifikatoren sind deshalb interessant, als dass sie ein fester Bestandteil mancher Phrasen sind. Die Modifikatoren werden gesammelt und in der Tabelle pp gespeichert. Falls mehrere Modifikatoren hintereinander auftreten, werden sie als eine Zeichenkette gespeichert. (10) auf + Fuß, von + Eltern und auf + Strecke mit den Modifikatoren pp_lemma | modin | modout | chunk ------------+----------+--------------+--------------------auf:Fuß |frei |inzwischen |auf freiem Fuß von:Eltern |schlechten|nicht |von schlechten Eltern auf:Strecke | |wieder einmal |auf der Strecke Die Tabelleneinträge in (10) zeigen, dass der extrahierten PP mit dem Lemma auf:Fuß das Adverbial inzwischen voransteht und, dass das Kopfnomen Fuß durch das Adjektiv frei modifiziert wird. Würde man das Adjektiv frei in der Wortverbindung auf + Fuß 3

Die vorhandene Perl/CQP-Schnittstelle wurde im Rahmen dieser Arbeit nicht benutzt.

18

weglassen, würde sich die Bedeutung der Phrase ändern. Ihre idiomatische Bedeutung geht in diesem Fall verloren (vgl. Kapitel 4). Nicht nur innerhalb der PP können sich feste Modifikatoren befinden. Außerhalb der PP (unmittelbar davor) können ebenfalls Wörter auftreten, die zu einer bestimmten Deutung der Phrase beitragen. Dies ist beispielsweise bei der Phrase nicht von schlechten Eltern sein der Fall. Die PP von schlechten Eltern muss durch die Negationspartikel nicht modifiziert werden, um die idiomatische Bedeutung zu erhalten (nicht von schlechten Eltern sein = etw. läßt nichts zu wünschen übrig). Um die Wahrscheinlichkeitsverteilung einzelner Modifikatoren, Koordination usw. zu berechnen, werden die PPen mit dem selben PP-Lemma gruppiert. Die Frequenz der gewünschten Parameter wird gezählt und anschließend werden ihre MLE-Wahrscheinlichkeiten4 ausgerechnet. Das leere Wort wird ebenfalls als möglicher Modifikator betrachtet (für die Fälle, in denen kein Modifikator vorkommt). Die Parameter werden zusammen mit ihren Wahrscheinlichkeiten in der Tabelle pp_stat gespeichert. (11) an + Ende, von + Dauer und auf + Höhepunkt mit den Modifikatoren anzahl | pp_lemma | mod_in | mod_out -------+--------------+--------------+-------------1953 | an:Ende |{{"",0.91}} |{{"",0.82}} 240 | von:Dauer |{{kurz,0.43}, |{{"",0.3}, | | {"",0.41}, | {nur,0.22}, | | {lang,0.08}} | {nicht,0.2}} 50 |auf:Höhepunkt |{{"",0.4}, |{{"",0.74}} | | {sein,0.24}, | | | {ihr,0.12}, | | | {mein,0.04}, | | | {unser,0.04}}| Aus dem Teil der Einträge zu den PPen an + Ende und von + Dauer, der in (11) gezeigt ist, kann man herauslesen, das an + Ende in 82% der extrahierten PPen ohne innere Modifikatoren und in 91% der Fälle auch ohne der PP voranstehende Modifikatoren vorkommt. Anders sieht es bei von + Dauer aus: In 43% der gefunden PPen mit dem Lemma von:Dauer wird das Kopfnomen Dauer durch das Adjektiv kurz modifiziert. In 22% der gefundenen Belege steht der PP das Adverb nur voran. In der Datenbank sind Modifikatoren mit Mindestwahrscheinlichkeit von 2,5% gespeichert. Bei diesem Schwellenwert wird zum Beispiel bei einer Anzahl von 2000 gefundenen Belegen erfordert, dass ein bestimmter Modifikator in mindestens 50 Belegen vorkommt. Bei weniger frequenten PPen werden die Modifikatoren berücksichtigt, die nur in wenigen Belegen vorkommen.

4

Maximum likelihood estimation: die MLE-Funktion ist im Python-Modul “NLTK” enthalten.

19

(12) an + Ende mit inneren Modifikatoren anzahl | pp_lemma | mod_in --------+----------+----------1671 | an:Ende | 31 | an:Ende | sein 31 | an:Ende | ihr 24 | an:Ende | anderen 9 | an:Ende | unser 6 | an:Ende | mein 5 | an:Ende | dieses 4 | an:Ende | oberen 3 | an:Ende | unteren ... In (12) ist die am häufigsten auftretende gefunde PP mit ihren inneren Modifikatoren gezeigt. Die Spalte anzahl gibt an, in wie vielen Belegen der in der Spalte mod_in angegebene Modifikator auftritt. Im Vergleich zur Häufigkeit des Auftretens keines Modifikators sind die Häufigkeiten anderer Modifikatoren sehr gering und geben keinen Aufschluss über die typische Verwendung der PP an + Ende. Auf der anderen Seite gibt es PPen, für die nur wenige Belege gefunden worden sind. (13) auf + Höhepunkt mit inneren Modifikatoren anzahl | pp_lemma | mod_in --------+---------------+-------------------25 | auf:Höhepunkt | 5 | auf:Höhepunkt | ihr 3 | auf:Höhepunkt | sein 2 | auf:Höhepunkt | unser 1 | auf:Höhepunkt | blutigensein 1 | auf:Höhepunkt | gesellschaftlichen ... Bei einer Anzahl der gefundenen Belege von 50 wie es bei auf + Höhepunkt der Fall ist, werden die Modifikatoren berücksichtigt, die mindestens in 2 Belegen vorkommen (siehe Eintrag für auf:Höhepunkt in (11)). Genitive, koordinierte NPen Außer Modifikatoren wurden auch dem Kopfnomen der PP folgende Koordinationen und Genitive identifiziert und in der Tabelle pp gespeichert.

20

(14) Datenbankeinträge mit Angaben zur Koordination und GenitivNP pp_lemma | koordnp | gen | pp ----------+---------+----------+--------------------------an:Ende | |ihr Kraft | am Ende ihrer Kraft außer:Rand| und Band| | außer Rand und Band In der Tabelle pp_stat werden die Genitive und koordinierte PPen mit ihren Wahrscheinlichkeiten auf die selbe Weise gespeichert wie die Modifikatoren (siehe oben). (15) Koordinierte PPen und Genitive von außer + Rand, auf Höhe und an:Werk anzahl|pp_lemma | koord | gen ------+----------+------------------+-----------------16 |außer:Rand|{{"und Band",1.0}}|{{"",1.0}} 214 |auf:Höhe |{{"",1.0}} |{{"",0.46}, | | | {"der Zeit",0.3}} 319 |an:Werk |{{"",0.99}} |{{"",0.99}} | | | Die in (15) dargestellten Einträge zeigen die Wahrscheinlichkeit einer koordinierten NP und einer GenitivNP. So ist die Wahrscheinlichkeit der Koordination und Band bei der Wortverbindung außer + Rand 100%, während die anderen zwei PPen keine koordinierte NP haben. Die PP auf + Höhe kommt in 46% der Fälle ohne eine GenitivNP und in 30% der gefundenen Belege tritt sie mit der GenitivNP der Zeit auf. Es wurden auch andere Genitive gefunden (z.B. auf der Höhe des Geschehens/seiner Macht/des Lebens usw.), die allerdings so selten auftreten, dass ihre Wahrscheinlichkeiten den Schwellenwert von 2.5% nicht überschreiten und somit nicht in die Datenbank aufgenommen wurden. Alte Dativform In manchen gefundenen PPen kommt das Kopfnomen der innerhalb der PP befindlichen NP in ihrer alten Dativform vor. Diese Eigenschaft wird als ein Indikator fester (idiomatischer) Wortverbindungen betrachtet [Burger 2007] (vgl. Kapitel 4.1.1), weshalb die Wahrscheinlichkeit der alten Dativform ausgerechnet und in Datenbank gespeichert wurde. (16) Wahrscheinlichkeit alter Dativform bei in + Gang, an + Platz und in + Schwung anzahl | pp_lemma | alt_dat --------+------------+----------------------------794 | in:Gang | {{Gange,0.99}} 363 | an:Platz | {{"",0.72},{Platze,0.27}} 15 | in:Schwung | {{"",0.93},{Schwunge,0.07}} Aus (16) kann man herauslesen, dass das Nomen Gang in der PP in + Gang mit 99%-iger Wahrscheinlichkeit in seiner alten Dativform auftritt.

21

(17) Gefundene Korpusbelege für in + Gang anzahl | chunk --------+----------------342 | im Gange 185 | in vollem Gange 83 | im Gang 58 | in vollem Gang 40 | in Gang 8 | im vollen Gange ... Das Nomen Platz in der PP an + Platz tritt in 27% der gefundenen Korpusbelege in alter Dativform vor (vgl. (18)). (18) Gefundene Korpusbelege für an:Platz anzahl| chunk ------+--------------------123 | am Platz 88 | am Platze 29 | am Potsdamer Platz 12 | an seinem Platz 8 | am falschen Platz 8 | an ihrem Platz ... PP-Agreement Das Agreement wurde aus den Angaben zum CQP-Attribut pp_agr extrahiert. (19) Agreement-Wahrscheinlichkeiten von an + Ende, von + Dauer und auf + Ast anzahl|pp_lemma | kas | num | def | praep_fus ------+---------+-----------+----------+------------+------------1953 |an:Ende |{{Dat,1.0},|{{Sg,1.0}}|{{Def,0.99}}|{{Fus,0.99}} | | {Akk,1.0}}| | | 240 |von:Dauer|{{Dat,1.0},|{{Sg,1.0}}|{{Nil,0.99}}|{{NoApl,1.0}} | | {Akk,1.0}}| | | 13 |auf:Ast |{{Dat,0.94}|{{Sg,1.0}}|{{Def,1.0}} |{{Nofus,1.0}} | | {Akk,1.0}}| | | In (19) sieht man, dass die PP mit dem Lemma an:Ende in den gefundenen Belegen immer im Dativ und im Singular auftritt sowie in 99% der Fälle definit ist. Die Spalte praep_fus gibt an, mit welcher Wahrscheinlichkeit die Präposition mit dem bestimmten Artikel fusioniert. Im Falle von an + Ende ist die Wahrscheinlichkeit sehr hoch, dass die Fusion der Präposition mit dem Artikel (an + dem = am) stattfindet, während die

22

Fusion der Präposition von bei von + Dauer mit dem Artikel als nicht möglich (NoApl ) angegeben ist. Bei auf + Ast wurde in keinem Beleg zu dieser PP die Fusion gefunden. Für die Wahrscheinlichkeitsverteilung der Kasuswerte wurde der von [Evert 2004] vorgeschlagene Algorithmus zur Berechnung der Wahrscheinlichkeitsverteilung ambiger morphosyntaktischer Werte angewandt. Betrachtet man die Kasusangaben zu auf:Ast, so sieht man, dass die Phrase mit 94%-iger Wahrscheinlichkeit im Dativ ist und in 6% der Fälle der Kasus nicht eindeutig bestimmbar ist. Die Phrase kommt in gefundenen Belegen nie im Akkusativ vor (vgl. Abschnitt 3.4.1). 3.3.3 Zugriff auf gespeicherte Daten Auf so gespeicherte Daten könnte nun ein externes Programm zugreifen, das beispielsweise das wahrscheinlichste Agreement und die wahrscheinlichsten Modifikatoren zu einer bestimmten PP findet. Das Programm könnte sich aus der Datenbank die gespeicherten Daten zu einer bestimmten PP holen, die Wahrscheinlichkeitsverteilung der Werte zu einem bestimmten Parameter vergleichen und den wahrscheinlichsten Wert zusammen mit seiner Wahrscheinlichkeit ausgeben. -> python auswertung.py "außer:Rand" Kasus: Ambig : 1.0 , Tendenz zu Dat und Akk gleich: Numerus: Sg : 1.0 Definitheit: Nil : 1.0 Fusion: NoApl : 1.0 Alter Dat: "" : 1.0 Innerer Modif: "" : 1.0 Auesserer Modif: "" : 0.63 Koordination: "und Band" : 1.0 Genitiv: "" : 1.0 Verb: sein 1.0 Gesamtfestigkeitswert: 8.63

: 0.0

Anhand der gespeicherten Daten berechnet das von mir geschriebene Programm namens auswertung.py, dass die PP außer Rand (und Band) im Singular (Numerus: Sg : 1.0 ) und in 100% der Fälle mit der Koordination und Band (Koordination: “und Band” : 1.0 ) vorkommt. In keinem der gefundenen Belege enthält sie einen Artikel (Definitheit: Nil : 1.0 ). Eine Fusion der Präposition mit dem Artikel ist nicht möglich (Fusion: NoApl : 1.0 ), da kein Artikel vorkommt. Die Kasusangabe ist in allen Belegen mehrdeutig (Kasus: Ambig : 1.0 ).

3.4 Probleme bei der Verwendung extrahierter Attribute Als ein Problem für die Weiterverarbeitung extrahierter Daten stellt sich das ambige (mehrdeutige) PP-Agreement heraus. Der Chunker, der auf das Korpus angewandt wurde, um die Phrasengrenzen zu bestimmen, notiert zu den Phrasen unter anderem auch das Agreement. Dazu werden die Agreements der für die Phrase relevanten Elemente

23

genommen, woraus die Schnittmenge gebildet wird. Bei den Synkretismen, also Wörtern, bei denen kein eindeutiges Agreement festgestellt werden kann (z.B. Berge kann Nominativ, Genitiv oder Akkusativ Plural sein), werden alle möglichen Agreements aufgelistet. Dies kann dann bei der Berechnung des Agreements einer bestimmten Phrase zu ambigen Agreement-Featuremengen führen. (20) PP-Agreement von über alle Berge über alle Berge Im Beispiel (20) wird die Präpositionalphrase über alle Berge zusammen mit ihrem Agreement, also dem Wert des Attributs pp_agr, als eine Disjunktion aller möglichen Agreement-Featuremengen dargestellt. Für die PP in (20) heißt es, dass sie im Akkusativ (Akk ) oder Nominativ (Nom) ist, sowohl definit (Def ) als auch indefinit (Ind ) sein und auch ohne Artikel (Nil ) vorkommen kann. Die Angabe des Numerus für das Kopfnomen Berge ist hingegen nicht ambig. In allen Feature-Mengen wird der Numerus Plural (Pl ) angegeben. Für die prädikativen PPen möchte man den wahrscheinlichsten Kasus, Numerus und die Definitheit berechnen und die Wahrscheinlichkeit in Prozenten angeben. Bei den alternativen morphosyntaktischen Angaben, bei denen automatisch nicht entschieden werden kann, welches Agreement das Richtige ist, kann es unter Umständen passieren, dass ein Merkmalswert, der auf die betreffende Phrase gar nicht zutrifft, eine ziemlich hohe Wahrscheinlichkeit erhält. 3.4.1 Korrektur der Kasuswerte Bei den PPen, die ohne Artikel vorkommen, wird der Kasus nicht eindeutig bestimmt, was (21) zeigt. (21) PP-Agreement von bei ∅ Kasse bei Kasse Würde an dieser Stelle die Information zur Kasusrektion der Präposition bei zur Verfügung stehen, könnte der Kasus eindeutig bestimmt werden, da bei nur mit einer NP im Dativ auftreten kann.

24

Das Wissen über die Kasusrektion der Präpositionen wurde ins Programm zur Weiterverarbeitung extrahierter Daten eingebunden. Allerdings gibt es auch Präpositionen, die mehrere Kasuswerte erlauben (z.B. über, auf und in können mit NPen im Dativ und Akkusativ vorkommen). (22) PP-Agreement von in ∅ Bewegung in Bewegung Mit dem Wissen, dass die Präposition in wie in (22) nur mit Dativ oder Akkusativ auftreten kann, können die Kasuswerte Nom (Nominativ) und Gen (Genitiv) ausgeschlossen werden. Jedoch bleibt die Kasusambiguität (Dativ oder Akkusativ) an dieser Stelle erhalten und wird auch als ambiger Kasuswert betrachtet. Aus diesem Grund wurde für die Berechnung der Kasushäufigkeiten der Algorithmus von [Evert 2004] gewählt, der speziell für die Berechnung der Häufigkeiten von ambigen Werten entwickelt wurde. Die Berechnung liefert zwei Zahlen, die das Konfidenzintervall angeben, in dem die tatsächliche Häufigkeit eines bestimmten Wertes liegt [Evert 2004]. (23) Kasuswerte von in + Bewegung anzahl| pp_lemma | kas ------+-------------+------------------------196 | in:Bewegung | {{Dat,0.23},{Akk,0.99} In (23) ist das berechnete Konfidenzintervall von in Bewegung gezeigt. Die Abbildung 1 stellt die ausgerechneten Werte graphisch dar.

Abbildung 1: Konfidenzintervall der Kasushäufigkeiten für in + Bewegung Der Bereich [0, 0.23] stellt die Häufigkeit des eindeutig bestimmten Dativs dar, während der Bereich [0.99, 1] die Häufigkeit des eindeutigen Akkusativs zeigt. Aus den beiden Bereichen kann man herauslesen, dass die PP in + Bewegung viel häufiger im Dativ als im Akkusativ vorkommt. Die Tendenz zu einem Dativ ist also viel höher als zum Akkusativ. Der Bereich [0.23, 0.99] zeigt, wie häufig der PP in Bewegung kein eindeutiger Kasuswert zugeordnet werden konnte. Die gefundenen Belege für die PP spiegeln die errechneten Zahlen wider.

25

(24) Korpusbelege für in + Bewegung anzahl| chunk ------+-----------------------------------------------------130 | in Bewegung 5 | in ständiger Bewegung 5 | in der Bewegung 2 | in Bewegung Bredemeier 2 | In Bewegung 1 | in der christlich-sozialen Bewegung des deutschen | Südwestens und Südens 1 | in eine gesamteuropäische Bewegung 1 | In der neofaschistischen Bewegung 1 | in der kommunistischen Bewegung 1 | in der kommunistischen Bewegung und der DKP ... Der Großteil (etwa 68%) der Belege hat die Form in Bewegung, in der der Kasus mangels eines Artikels nicht eindeutig bestimmt werden kann. Der Akkusativ wird in nur 3 Belegen eindeutig bestimmt, während die PP in restlichen Belegen (31% der Belege) eindeutig als Dativ bestimmt ist. 3.4.2 Nullartikel Bezüglich des Vorkommens eines Artikels innerhalb einer PP werden mehrere Fälle unterschieden: 1. bestimmter Artikel (25) über den Berg über den Berg 2. unbestimmter Artikel (26) an einem Wendepunkt an einem Wendepunkt 3. kein Artikel • mit einem Modifikator (27) in trockenen Tüchern in trockenen Tüchern

26

(28) bei guter Gesundheit bei guter Gesundheit • ohne Modifikator (29) bei ∅ Trost bei Trost In den Fällen 1 und 2 ist das PP-Agreement eindeutig bestimmt. Dies ändert sich, wenn der Artikel ausgelassen wird, wie es in (27), (28) und (29) gezeigt ist. Beim Fehlen des Artikels ist die Definitheitsangabe ambig. Während in (27) zumindest der Kasus eindeutig bestimmt werden kann, werden bei (28) und (29) alle in Frage kommenden Kasuswerte angegeben. Hinzu kommt noch die Unsicherheit bzgl. des Definitheitswertes. Hier werden also alle möglichen Kombinationen der Werte als PP-Agreement angegeben, was bei der Berechnung der Wahrscheinlichkeitsverteilung der Werte zu einem bestimmten Merkmal (hier Definitheit und Kasus5 ) zu nicht korrekten Zahlen führen kann. (30) Angaben zur Definitheit von bei + Trost ohne Korrektur der Definitheitswerte anzahl| pp_lemma | def ------+------------+---------------------------------6 |bei:Trost |{{Ind,0.33},{Nil,0.33},{Def,0.33}} 196 |in:Bewegung |{{Def,0.35},{Nil,0.33},{Ind,0.32}} Laut der zur PP bei + Trost ausgerechneten Wahrscheinlichkeitsverteilungen in (30) sind alle Definitheitswerte gleich wahrscheinlich. Allerdings kommt die PP in allen gefundenen Belegen ohne Artikel vor, weshalb die Definitheit den Wert Nil (Nullartikel) bekommen sollte. Wenn man davon ausgeht, dass eine PP, in der kein Artikel vorkommt, den Definitheitswert Nil bekommen soll, kann die Definitheitsambiguität mit der Überprüfung der NP-Elemente aufgelöst werden. Anhand der POS-Angaben zu den NP-Elementen kann festgestellt werden, ob die NP den Artikel beinhaltet. Wenn dies nicht der Fall 5

Die Korrektur der Kasuswerte ist im Abschnitt 3.4.1 beschrieben

27

ist, bekommt die PP den Definitheitswert Nil. Wenn man anhand von auf diese Weise ermittelten Definitheitswerten ihre Warscheinlichkeitsverteilung für die PP bei + Trost berechnet, ergeben sich in (31) dargestellte Werte. (31) Angaben zur Definitheit von bei + Trost mit Korrektur der Definitheitswerte anzahl | pp_lemma | def -------+-----------+----------------------6 |bei:Trost |{{Nil,1.0}} 196 |in:Bewegung|{{Nil,0.86},{Def,0.12}} Mit dem zusätzlichen Wissen wird die Definitheit von bei + Trost korrigiert und es wird die richtige6 Wahrscheinlichkeitsverteilung der Definitheitswerte berechnet.

6

Hierbei handelt es sich um die richtige Wahrscheinlichkeitsverteilung der Definitheitswerte in Bezug auf die gefundenen Korpusbelege für bei + Trost

28

4 Morphosyntaktische Präferenzen der Präpositionalphrasen [Burger 2007] und [Higi-Wydler 1989] definieren Idiome als Ausdrücke, die folgende Bedingungen erfüllen: 1. Polylexikalität: der Ausdruck besteht aus mehr als einem Wort, ist jedoch kleiner als ein Satz; 2. Festigkeit: der Ausdruck kommt in einer bestimmten Kombination der Wörter vor. Er ist eine feste Wortverbindung, die als Ganzes reproduziert wird; 3. Idiomatizität: die Komponenten des Ausdrucks bilden durch die syntaktischen und semantischen Regularitäten der Verknüpfung nicht voll erklärbare Einheiten. Die Gesamtbedeutung des Ausdrucks entspricht nicht (oder nicht vollständig) der Summe der Einzelbedeutungen seiner Komponenten. Das unter 1 aufgeführte Merkmal ist unproblematisch zu bestimmen und trifft auf die (prädikativen) Präpositionalphrasen zu, denn die Präpositionalphrasen bestehen immer mindestens aus einer Präposition und einem Nomen und können alleine keinen Satz bilden. Die Bedingung 3 bezieht sich auf die Bedeutung der idiomatischen Ausdrücke. Das Kompositionalitätsprinzip der Sprache spielt hier eine Rolle: Die Bedeutung des Ganzen wird aus den Bedeutungen der Teile abgeleitet. Bei den idiomatischen Ausdrücken ist dies allerdings nicht der Fall. Sie besitzen eine idiomatische (übertragene) Bedeutung, die nicht direkt aus ihren Komponenten hervorgeht (z.B. für die Katz (sein): vergebens, umsonst (sein)). Viele idiomatische Ausdrücke haben allerdings sowohl eine wörtliche als auch eine idiomatische Bedeutung. Je größer der Unterschied zwischen den beiden Bedeutungen ist, desto stärker idiomatisch ist der Ausdruck [Burger 2007]. Bei der Festigkeit handelt es sich um die Eigenschaft, dass oft vorkommende Wortkombinationen einer Sprache meistens in einer bestimmten Form vorkommen, deren Änderung oft zu einer Bedeutungsänderung bzw. zum Verlust der idiomatischen Bedeutung führt. Auf die Bedingung der Festigkeit wird im Kapitel 4.1 ausführlich eingegangen. Die Bedingung der Idiomatizität hängt stark mit der Festigkeit zusammen: Eine idiomatische Wendung ist gleichzeitig fixiert. Dies zeigen viele idiomatische PPen wie z.B. für die Katz, neben der Spur, auf dem Holzweg, auf dem Damm, aus dem Häuschen, vom Tisch usw. Umgekehrt muss diese Beziehung nicht unbedingt gelten. Nimmt man beispielsweise die prädikative PP in + Gefahr, kommt sie in der Menge der extrahierten prädikativen PPen in folgenden Formen vor: anzahl | chunk --------+------------------------------588 | in Gefahr 15 | in höchster Gefahr 11 | in akuter Gefahr

29

10 8 2 .

| | | .

in der Gefahr in großer Gefahr in größter Gefahr .

Von insgesamt 652 Vorkommen der PP in + Gefahr, kommt sie in 588 Fällen (also in etwa 90% der Belege) in der Form in Gefahr vor. Man kann also sagen, dass der Ausdruck relativ fest ist. Da aber seine Bedeutung aus seinen Komponenten erschlossen werden kann, handelt sich um keinen idiomatischen Ausdruck.

4.1 Morphosyntaktische Präferenzen als Indikatoren für Idiome In der Literatur werden Idiome und nicht-idiomatische Phraseologismen7 als feste Wortverbindungen definiert, die als eine sprachliche Einheit reproduziert (sprachlich wiedergegeben) werden. Wie ein Wort werden sie “gespeichert” und als Ganzes abgerufen und produziert [Burger 2007]. Im Gegensatz zu den Wörtern handelt es sich bei den Phraseologismen um ein syntaktisches Gebilde, dessen Komponenten in einem gewissen Umfang verändert oder verschoben werden können. Damit eine Wortverbindung reproduzierbar wird, muss sie fixiert (bzw. fest, stabil) sein. Die Fixiertheit der Phraseologismen bezieht sich nicht nur auf ihre morphologische und syntaktische Struktur, sondern auch auf die lexikalische Besetzung der einzelnen Komponenten sowie die Unveränderlichkeit der Bedeutung der Wendung [Higi-Wydler 1989]. Im Folgenden werden die verschiedenen Festigkeitskriterien, die [Burger 2007] und [Higi-Wydler 1989] aufzählen, vorgestellt. Dabei werden als Beispiele die extrahierten PPen herangezogen. Bis auf die konstruierten Sätze, die zeigen, in welcher Form eine bestimmte PP nicht auftritt, stammen alle Beispielsätze aus dem HGC (vgl. Kapitel 3.1). Zur Bestimmung der morphosyntaktischen Präferenzen der gezeigten PPen werden die in der Datenbank gespeicherten Angaben betrachtet (vgl. Kapitel 3.3.2). 4.1.1 Morphosyntaktische Restriktionen • Vollständige Festigkeit Einige Idiome weisen vollständige Festigkeit auf. Dabei handelt es sich meistens um Idiome mit Adverbialfunktion im Satz: ganz und gar, in der Tat usw. [Higi-Wydler 1989]. Die verbalen Idiome, zu denen u.a. auch die idiomatisch benutzten prädikativen PPen gehören, werden nicht als unveränderlich betrachtet, da zumindest das Verb, mit dem sie auftreten, verändert werden kann. Allerdings gibt es prädikative PPen, die nur in einer bestimmten Form vorkommen (für die Katz, in Amt und Würden, außer Rand und Band, in aller Munde, zu Hause, am Ruder ). Wenn man sie abändern würde, würden die Phrasen ihre idiomatische Bedeutung verlieren. (1) 7

a.

Die CDU ist wieder mal völlig neben der Spur.

[Burger 2007] definiert Phraseologismen als feste Ausdrücke der Sprache, die aus mehr als einem Wort bestehen. Sie sind als eine Wortkombination nicht nur für dieses eine Mal zusammengestellt und sind den Sprechern in genau dieser Kombination (eventuell mit Varianten) bekannt.

30

b.

... die Zuwegung für wenig mehr Geld ein bißchen neben der geplanten Spur zu verlegen ...

Der Satzteil in (1b), der aus dem HGC stammt, zeigt, wie sich die Bedeutung der PP neben der Spur ändert, wenn ihr Aufbau geändert wird, d.h. das Nomen modifiziert wird. In dieser Form wird sie wörtlich verstanden und erhält die Funktion einer ortsbestimmenden PP. Auf Grund der Bedeutungsänderung kann sie auch nicht mehr mit den Kopulaverben prädikativ auftreten. Die PP auf dem Holzweg tritt auch meistens in dieser Form auf. Allerdings wurden im HGC auch andere Formen der PP gefunden. (2)

a. b.

c.

Wir gratulieren einer Weggenossin auf den liebsten Holzwegen, die häufig voranging, zart und herzlich. Es hat überhaupt nichts mit “rechtem Outing” zu tun, wenn jemand linke politische Ideale nicht auf dem internationalistischen Holzweg zu erreichen versucht, sondern mit einer Politik der nationalen Bescheidenheit. Dennoch mag der Zeitpunkt gekommen sein, innezuhalten und den Blick zurück zu wenden, zurück in die fünfziger Jahre, als schon einmal Schicksalsfragen unserer Nation auf dem Spiele standen, als Martin Heidegger noch unter uns und auf rätselhaften Holzwegen wandelte für und für.

Die Phrase auf dem Holzweg (sein) bedeutet sich irren. In den oben dargestellten Sätzen wird das Nomen Holzweg durch zusätzliche Elemente (liebsten, internationalistischen, rätselhaften) modifiziert. Die Adjektive werden der üblichen Form der PP hinzugefügt. Laut [Cigoni/Coffey 1998] ändern die Sprecher absichtlich einen idiomatischen Ausdruck, um einen bestimmten Effekt hervorzurufen. Solche absichtlichen Änderungen von Idiomen werden auch als Wortspielereien betrachtet [Cigoni/Coffey 1998]. Die Bedeutung des Idioms ändert sich dabei kaum; vielmehr verschmilzt sie mit der Bedeutung des hinzugefügten Elementes. Wenn man das Nomen Holzweg in der PP auf dem Holzweg als Irrweg versteht, könnte man die Phrase in (2a) so interpretieren, als möge sich die Weggenossin zwar in mancher Hinsicht geirrt haben, dies ihr aber nicht vorgeworfen wird. Mit der Modifikation durch das Adjektiv lieb bekommt die PP auf dem Holzweg also eine neue, leicht geänderte, Bedeutung. • Grammatikalische Kategorie Hierbei handelt es sich um die Einschränkung der Wahl grammatikalischer Kategorien [Higi-Wydler 1989]. Dabei wird die Fixiertheit in Bezug auf Kasus, Numerus, Genus, Person und Tempus unterschieden. Für die PPen werden Kasus, Numerus und Definitheit betrachtet.

31

Definitheit Definitheit ist ein Merkmal der (idiomatischen) PPen, dessen Änderung Auswirkungen auf die Bedeutung und das Verstehen einer PP haben kann. (3)

a. b.

Ich war ganz schön von der Rolle, hat er allerdings nicht gemerkt. * Ich war ganz schön von einer Rolle, hat er allerdings nicht gemerkt.

(3a) zeigt die Verwendung der PP von + Rolle. Die Änderung des definiten Artikels in den Indefiniten führt zu einem syntaktisch zwar korrekten, aber semantisch unklaren Satz. Man kann also sagen, dass die PP den definiten Artikel gegenüber dem Indefiniten präferiert. Auf der anderen Seite gibt es PPen, die einen indefiniten Artikel präferieren, wie die folgenden Beispiele zeigen. (4)

a. b. c. d.

“Das Land ist an einem Wendepunkt”, warnte er. ? “Das Land ist an dem/am Wendepunkt”, warnte er. EG-Diplomaten in Lissabon erklärten: "Wir sind in einer Sackgasse”. * EG-Diplomaten in Lissabon erklärten: "Wir sind in der Sackgasse”.

Zuletzt gibt es auch PPen, die keinen Artikel (Nullartikel) beinhalten. (5)

a. b. c. d.

Der Mann * Der Mann Nicht jede * Nicht jede

ist permanent auf ∅ Achse. ist permanent auf der/einer Achse. darf Tom Cruise zu ∅ Willen sein ... darf Tom Cruise zu dem/einem Willen sein ...

Unter den extrahierten PPen gibt es zwei Phrasen (in + Stimmung, in + Gefahr ), die in den meisten gefundenen Korpusbelegen ohne einen Artikel vorkommen, die aber auch mit dem definiten Artikel vorkommen können. Wenn dies der Fall ist, erfordern sie einen zu-Infinitiv. (6)

a. b. c. d.

Jetzt war er in ∅ Stimmung. Der Kanzler ist nicht in der Stimmung, an einem Ball teilzunehmen ... Auch die Bremer Verbraucherzentrale ist in ∅ Gefahr. Die Linke ist in der Gefahr, die Politik Helmut Kohls von 1990 fortzusetzen ...

Der indefinite Artikel wird bei den gefundenen prädikativen PPen viel seltener benutzt als der Definite. Laut Berechnung der Präferenzen bzgl. der Definitheit kommen die PPen in (4a) und (4c) sowie die PP an + Wendemarke als einzige überwiegend mit dem indefiniten Artikel vor. Etwa 67% aller gefundenen PPen treten mit dem definiten Artikel auf. Manche PPen mit der Präposition zu, die in

32

den meisten gefundenen Korpusbelegen mit dem definiten Artikel auftreten, können auch mit dem indefiniten Artikel vorkommen: zum/zu einem Renner, zur/zu einer Farce, Legende werden. In der Tabelle 3 ist die Wahrscheinlichkeitsverteilung der Definitheitswerte dargestellt. Die Werte in der Tabelle wurden anhand der Daten in der Datenbank ausgerechnet. Man sieht, dass etwa die Hälfte der PPen mit dem bestimmten Artikel auftreten, während die andere Hälfte starke Präferenzen für den Nullartikel haben. Definit 0.49

Indefinit 0.009

Kein Artikel 0.47

Tabelle 3: Wahrscheinlichkeitsverteilung der Definitheitswerte

Numerus Die Mehrheit der prädikativen PPen zeigt starke Präferenz zu einem bestimmten Numeruswert. (7)

a. b. c. d.

Jetzt ist der Oberbürgermeister am Zug. * Jetzt ist der Oberbürgermeister an den Zügen. ... seit gestern ist die sogenannte Verpackungsverordnung in Kraft. * ... seit gestern ist die sogenannte Verpackungsverordnung in Kräfte(n).

Würde man in (7a) statt Zug die Pluralform Züge benutzen (Beispielsatz in (7b)) würde sich die Bedeutung der Phrase ändern. Man würde sie nun wörtlich als eine Ortsangabe verstehen. Die Kasusänderung von in Kraft in (7c) würde in einem unverständlichen Satz resultieren. Außerdem ist bei in Kraft der Kasus gar nicht ersichtlich: Es könnte sich sowohl um Dativ als auch Akkusativ handeln (Problem mit dem Nullartikel, vgl. Kapitel 3.4.2), weshalb in (7d) beide Formen angegeben wurden. PPen, die in ihrer prädikativen Funktion wörtlich zu verstehen sind (im Unrecht, im Aufbau, unter Verschluss usw.) weisen ebenfalls starke Präferenz bzgl. des Kasus auf. Würde man beispielsweise in Unrechten (sein) statt im Unrecht (sein) benutzen, hätte ein Muttersprachler des Deutschen vermutlich Schwierigkeiten, die Bedeutung des Ausdrucks zu erschließen. Obwohl diese PPen keine idiomatische Bedeutung haben, sind sie feste Ausdrücke des Deutschen, deren Elemente nicht nach Belieben geändert werden können. Aus der Tabelle 4 kann man herauslesen, dass die große Mehrheit der gefundenen prädikativen PPen im Singular auftritt. Die wenigen PPen, die im Plural auftreten, sind alle Idiome: über alle Berge, aus den Fugen, auf den Fersen, in trockenen Tüchern, von den Socken, von schlechten Eltern, auf den Beinen, bei Kräften. Eine PP kann (ohne Änderung anderer Elemente wie bei über den Berg - über alle

33

Berge) sowohl im Singular (allerdings viel seltener) als auch im Plural vorkommen: ohne Folge - ohne Folgen. Singular 0.94

Plural 0.05

Singular und Plural 0.004

Tabelle 4: Wahrscheinlichkeitsverteilung der Numeruswerte Kasus Die Änderung des Kasus bei einer bestimmten (idiomatischen) PP könnte zu einer Bedeutungsänderung der PP führen. Die meisten extrahierten PPen kommen im Dativ vor, was die Tabelle 5 zeigt. Genitiv 0.004

Dativ 0.64

Akkusativ 0.07

Ambig 0.28

Tabelle 5: Wahrscheinlichkeitsverteilung der Kasuswerte

Das dürfte daran liegen, dass sie einen Zustand (eine Eigenschaft) und keine Bewegung ausdrücken, wofür der Akkusativ verwendet wird. Allerdings wurden auch prädikative PPen extrahiert, die mit einer Präposition gebildet werden, die ausschließlich einen Akkusativ erfordert. Dazu gehören die PPen mit den Präpositionen ohne, durch, für : ohne Zweifel/Folge(n)/..., durch den Wind, für die Katz. Manche PPen kommen andererseits mit Präpositionen vor, die nur mit dem Dativ auftreten: bei Laune/der Stange, zu Hause, vom Tisch. Hinzu kommt noch eine Präposition, die nur mit einem Nomen im Genitiv vorkommen kann, nämlich außerhalb (außerhalb der Vorstellungskraft). Andere Präpositionen wie an, in, auf, über usw. erlauben sowohl Dativ als auch Akkusativ. Wenn diese Präpositionen mit einer NP ohne Artikel vorkommen, kann der Kasus nicht eindeutig bestimmt werden, weshalb er in diesen Fällen als ambig betrachtet wird. Etwa 28% der extrahierten PPen weisen diese Eigenschaft auf. Die Hälfte davon zeigt jedoch große Tendenz zum Dativ auf, worauf die anderen Belege der betreffenden PP hinweisen. Nimmt man beispielsweise die PP in + Erinnerung, so geht aus den gefundenen Korpusbelegen hervor, dass sie am häufigsten in der Form in ∅ Erinnerung auftritt. Folglich wird der Kasus als ambig angegeben. (8) anzahl| pp_lemma | kas | def ------+-------------+------------+-----------369 |in:Erinnerung|{{Dat,0.46},|{{Nil,0.89}, | | {Akk,0.99}}| {Def,0.11}} Die PP kommt allerdings auch in anderen Formen vor, was 9 zeigt.

34

(9)

anzahl | chunk --------+-------------------------158 | in Erinnerung 18 | in der Erinnerung 16 | in guter Erinnerung 15 | in bester Erinnerung 14 | In Erinnerung 13 | In der Erinnerung 13 | in frischer Erinnerung 8 | in schlechter Erinnerung 6 | In guter Erinnerung 5 | in lebhafter Erinnerung ...

Erst durch die Modifikation des Nomens Erinnerung wird ersichtlich, dass die PP im Dativ ist. Das gleiche wird bei einigen anderen PPen beobachtet (z.B. unter + Zeitdruck, auf + Kurs, in + Reichweite, in + Panik usw.). Die Daten zeigen also, dass die meisten (idiomatischen) prädikativen PPen eine starke Präferenz für einen bestimmten Kasuswert aufweisen. Würde man den Kasuswert ändern, wie folgende Sätze zeigen, würde dies zu grammatikalisch falschen Sätzen führen. (10)

a. b. c. d.

Ein Junge ist ihnen auf [den Fersen]Dat. * Ein Junge ist ihnen auf [die Fersen]Akk .8 Er ist, wie ein entsetztes Tier, immer auf [dem Sprung]Dat . * Er ist, wie ein entsetztes Tier, immer auf [den Sprung]Akk .

Die PPen aus den obigen Beispielen können mit den Kopulaverben sein und bleiben nur im Dativ auftreten und haben eine übertragene Bedeutung (jmdm. auf den Fersen sein: dicht hinter jmdm. sein; auf dem Sprung sein: in Eile, bereit sein). Die Änderung des Dativs in den Akkusativ kann stattfinden, wenn die Verben sein, bleiben durch die Stützverben bringen, kommen ersetzt werden (vgl. Kapitel 2.2.1), was folgende Beispiele zeigen. (11)

a. b. c.

8

Der Kurssturz des gedruckten Wortes ist längst an [der Tagesordnung]Dat. Als mit der Machtübernahme der Jakobiner auch die terreur an [die Tagesordnung]Akk kam ... Das Militär-Regime, das seit 1988 an [der Macht]Dat ist, schweigt die Problematik tot.

Die Akkusativform bei den Feminina und Neutra gleicht der Nominativform. Der Nominativ wird hier allerdings nicht angegeben, weil die Präpositionen in den PPen nicht mit einer NP im Nominativ auftreten können.

35

d.

Das alles spitzte sich zu, als die Generäle, die Mörder, an [die Macht]Akk kamen.

Während die Verb- und Kasusänderung bei den nicht-idiomatischen PPen möglich ist, verlieren die idiomatischen PPen bei der Ersetzung der Verben und Änderung des Kasus ihre idiomatische Bedeutung (am Boden sein - *an den Boden kommen, in trockenen Tüchern sein - in die trockenen Tücher *kommen/bringen, auf der Achse sein - *auf die Achse kommen). In der Menge der gefundenen PPen gibt es auch eine PP, die sowohl im Dativ als auch im Akkusativ vorkommen kann. (12)

a. b.

So ganz über [den Berg]Akk ist der Verein aber auch jetzt noch nicht... „Mit den Kohlenwasserstoffen sind wir über [dem Berg]Dat ”, meinte ein Fachmann.

Man kann sagen, dass die PP über + Berg zwei lexikalische Varianten9 hat, in denen sie idiomatisch auftreten kann. • Weitere morphosyntaktische Besonderheiten der extrahierten PPen Im Folgenden werden weitere Eigenschaften der extrahierten prädikativen PPen in Bezug auf ihr morphosyntaktisches Aussehen betrachtet. Es wird näher auf die Präposition-Artikel-Fusion und auf die Dativform der maskulinen Nomina eingegangen. Fusion der Präposition mit dem Artikel Die meisten PPen, die mit dem definiten Artikel auftreten und deren Kopfnomen maskulin oder ein Neutrum ist, weisen die Fusion der Präposition (meist in, von, bei, an) mit dem Artikel auf. Folgende Sätze zeigen, welche Auswirkung die Änderung dieser Eigenschaft auf die Bedeutung der PPen haben kann. (13)

a. b. c. d.

Denn die SPD war fast 40 Jahre lang immer allein am Ruder. ? Denn die SPD war fast 40 Jahre lang immer allein an dem Ruder. Aber auch dieses Problem ist inzwischen vom Tisch. ? Aber auch dieses Problem ist inzwischen von dem Tisch.

Die PP am Ruder würde ein Muttersprachler in genau dieser Form benutzen. Würde man stattdessen die in (13b) verwendete Form benutzen, würde sich die Phrase etwas merkwürdig anhören, was zum erschwerten Verstehen des Satzes führen würde. Das gleiche gilt für die PP in (13c). Die Änderung der Eigenschaft, dass die Präpositionen in den PPen an + Ruder und von + Tisch mit dem bestimmten Artikel verschmelzen, führt zum Verlust der idiomatischen Bedeutung der beiden Idiome. 9

Lexikalische Varianten entstehen durch Substitution einzelner lexikalischer Komponenten, ohne dass sich die idiomatische Bedeutung des Ausdrucks ändert [Higi-Wydler 1989].

36

Die Nicht-Modifizierbarkeit dieses Merkmals beobachtet man auch bei den nicht idiomatischen PPen. (14)

a. b. c. d.

“Credo Pro Activ” ist seit April im Handel. ? “Credo Pro Activ” ist seit April in dem Handel. Seit Anfang Juli ist das Meßgerät im Einsatz. ? Seit Anfang Juli ist das Meßgerät in dem Einsatz.

Bei den nicht idiomatischen prädikativen PPen führt das Auseinanderziehen der Präposition und des Artikels zu Ausdrücken, deren Bedeutung sich ändert. So deuten die PPen in (14b) und (14d) auf einen bestimmten Handel bzw. einen bestimmten Einsatz hin, was aus (14a) und (14c) nicht herauszulesen ist. Alte Dativform Manche maskulinen Nomina in den gefundenen PPen treten im Singular in ihrer alten Dativform auf. Dies ist eine Form, die früher im Deutschen üblich war, heute aber so nicht mehr benutzt wird. Solche morphologischen und syntaktischen “Anomalien” tragen gelegentlich zur Festigkeit einer idiomatischen Wendung bei [Higi-Wydler 1989]. Doch auch dies trifft nicht auf alle idiomatischen PPen zu. (15)

a. b. c. d.

Was in aller Munde ist, muß auch leicht von der Hand gehen. * Was in aller Mund ist, muß auch leicht von der Hand gehen. Die Bauarbeiten an Schloß und Frauenkirche sind im Gang. Für bestimmte betriebliche Dienstleistungen ist dieser Prozeß bereits im Gange.

Das Nomen Mund in (15a) wird in der benutzten PP in der alten Dativform verwendet. Würde man stattdessen die heute übliche Dativform nehmen, wie es im Satz (15b) der Fall ist, würde eine Phrase entstehen, deren idiomatische Bedeutung zwar noch erkennbar wäre, die sich aber nicht natürlich anhören würde. Diese PP hat außerdem die Eigenschaft, dass sie immer mit dem Modifikator aller vorkommt. Nur in dieser Wortkombination hat sie die idiomatische Bedeutung (in aller Munde: bekannt sein). Im Gegensatz zu diesem Beispiel kann man bei der PP in + Gang das Kopfnomen der PP sowohl in der alten als auch in der heute üblichen Dativform verwenden, ohne dass der Satz unverständlich wird bzw. unnatürlich klingt. Jedoch zeigt der Datenbankeintrag von in + Gang, dass das Nomen Gang in 99% der Belege für in + Gang in seiner alten Dativform vorkommt. (16) anzahl| pp_lemma | alt_dat ------+----------+-------------------------130 | in:Mund | {{Munde,0.95},{"",0.04}} 794 | in:Gang | {{Gange,0.99}} 254 | an:Rand | {{Rande,0.75},{"",0.25}} 1190 | zu:Haus | {{Hause,0.96},{"",0.04}}

37

• Transformationelle Defekte Idiomatische Ausdrücke lassen manche Transformationen nicht zu. Zu solchen Transformationen gehören z.B. die Passivierung, Relativsatzbildung, Nominalisierung usw. Für die prädikativen PPen wird lediglich die Modifikation des Nomens durch einen Modifikator (Adjektiv, Possessivpronomen) betrachtet. Modifikation durch Adjektive oder Possessivpronomina Die innerhalb einer PP eingeschlossene NP (z.B. [von [großer Wichtigkeit]N P ]P P ) hat in den meisten gefundenen PPen eine bestimmte lexikalische Belegung, die nicht beliebig geändert werden kann. Während manche Nomina fast immer mit einem bestimmten Modifikator auftreten, gibt es auf der anderen Seite solche, die keine Modifikation dulden. (17)

a. b. c. d.

Trotzdem ist Eko-Stahl noch nicht ”in trockenen Tüchern” ... * Trotzdem ist Eko-Stahl noch nicht in ∅ Tüchern ... Kriegsverbrecher bleibt auf freiem Fuß. * Kriegsverbrecher bleibt auf dem/einem/∅ Fuß.

Die PP in (17a) hat nur in dieser Form die idiomatische Bedeutung (in trockenen Tüchern: fertig, abgeschlossen sein). Wenn man das Adjektiv trocken ausließe, würde der Ausdruck seine idiomatische Bedeutung verlieren und wäre nun wörtlich zu verstehen (was im gegebenen Kontext wenig Sinn machen würde). Das gleiche gilt für die PP in (17c). Des Weiteren gibt es PPen, bei denen die Modifikation des Kopfnomens optional ist. Unabhängig davon, ob der Modifikator vorhanden ist, behält die PP ihre übertragene Bedeutung. Dies zeigen die Sätze in (18a) und (18b). Die darin enthaltene PP kommt überwiegend mit einem Modifikator (Possessivpronomen) vor, während für die Variante ohne einen Modifikator nur wenige Korpusbelege gefunden worden sind. (18)

a. b.

Der Bühnenbildner Minks ist in seinem Element. Hier ist sie im ∅ Element, zeichnet ein typisches Becker-Weihnachtsthema: „’ne gestreßte Frau, kurz vor Heilig Abend”.

Schließlich gibt es prädikative PPen, deren eingeschlossene NP keinen Modifikator zulässt. (19)

a. b.

Momper: Udo ist also noch nicht ganz aus dem ∅ Rennen. * Momper: Udo ist also noch nicht ganz aus dem gestrigen/schnellen Rennen.

Die Tabelle 20 zeigt die Wahrscheinlichkeitsverteilung möglicher Modifikatoren für die PPen aus den vorigen Beispielsätzen. Es ist auffallend, dass in + Element in fast allen Belegen ein Possessivpronomen einschließt. Das Nomen Tuch in der PP

38

in + Tuch wird in 75% der Belege durch das Adjektiv trocken modifiziert, während die Kombination mit dunkel aus einem Satz stammt, in dem die PP wörtlich zu verstehen ist. (20) anzahl| pp_lemma | mod_in ------+----------+------------------------------------4 |in:Tuch |{{trocken,0.75},{dunkel,0.25}} 64 |aus:Rennen|{{"",1.0}} 92 |in:Element|{{sein,0.61},{ihr,0.31},{unser,0.03}} Die Mehrheit der gefundenen PPen gehört zur Gruppe der idiomatischen PPen, die ohne einen Modifikator vorkommen. Nur wenige PPen erlauben die Modifikation des Kopfnomens. Dies ist bei etwas weniger als 10% der gefundenen PPen der Fall (z.B. in aller Munde, von großer Bedeutung, fern aller Wirklichkeit, in trockenen Tüchern, auf dem absteigenden Ast usw.). 4.1.2 Lexikalische Unveränderbarkeit Die Idiome sind im Allgemeinen bezüglich der lexikalischen Besetzung ihrer Komponenten fixiert [Higi-Wydler 1989]. Bei der Ersetzung eines Wortes durch ein anderes synonymes Wort kommt es zum Verlust der idiomatischen Bedeutung. Diese Beobachtung belegen einige extrahierte PPen, die eine idiomatische Bedeutung haben. (21)

a. b. c. d.

In der Zwischenzeit waren die beiden jedoch über alle Berge. * In der Zwischenzeit waren die beiden jedoch über sämtliche Berge. Sie sterben auf der Straße, weil sie ohne Obdach sind. * Sie sterben auf der Straße, weil sie ohne Dach sind.

Die Ersetzung von all in (21a) durch das synonyme Wort sämtlich führt zur Bildung einer Phrase, deren idiomatische Bedeutung nur noch schwer zu erkennen ist. Die NichtErsetzbarkeit der Komponenten weist auch die PP ohne + Obdach auf. Würde man hier das Nomen Obdach durch das äquivalente Wort Dach ersetzen, bekäme man einen unverständlichen Satz10 . [Higi-Wydler 1989] hat beobachtet, dass sich die idiomatische Wendung manchmal durch den Gebrauch einer bestimmten Präposition von der freien Wortverbindung (mit der wörtlichen Bedeutung) unterscheidet. Dieses trifft auf eine der extrahierten prädikativen PPen zu, nämlich auf zu + Haus. In der Form zu Hause bedeutet sie das Haus, das Heim, in dem man wohnt. Wenn man statt zu die Präposition in nehmen würde (also im Haus(e)), wäre die PP wörtlich zu verstehen. Das Nomen Haus wäre in diesem Fall als irgendein beliebiges Haus oder Gebäude zu verstehen und nicht als das eigene Heim. Die gezeigten Beispiele zeigen, dass viele prädikative PPen Präferenzen bzgl. verschiedener Parameter wie Definitheit, Modifikation usw. aufweisen. Mittels einiger Beispiele 10

Die Erweiterung der resultierenden PP ohne Dach mit der PP über dem Kopf führt wieder zu einem idiomatischen Ausdruck: Dach über dem Kopf (haben), ohne Dach über dem Kopf (sein).

39

wurde gezeigt, dass die Festigkeit nicht nur für idiomatische PPen gilt. Manche Phrasen, die wörtlich zu verstehen sind, hören sich meistens etwas merkwürdig an, wenn man ihr typisches syntaktisches Aussehen ändert. Da man nicht allgemeine Regeln aufstellen kann, welcher Ausdruck welche Änderung duldet und in welcher Form er zu benutzen ist, müssen solche Ausdrücke mit allen ihren kontextuellen Eigenschaften lexikalisiert werden.

4.2 Gruppen von Präpositionalphrasen In Hinsicht auf das syntaktische Aussehen können die extrahierten PPen in einige Gruppen unterteilt werden. Diese Gruppen zeigen das für eine PP charakteristische syntaktische Aussehen, das anhand der in der Datenbank gespeicherten Merkmalswerte ermittelt wurde. 1. PPen ohne innere Modifikatoren a) Präposition + Nomen: von Interesse, zu Ende, von Gewicht, von Nutzen, in Fahrt, bei Sinnen, auf Diät, in Ordnung, auf Wachstumskurs, auf Entzug, in Bewegung, auf Achse, in Not ... Etwa 36% aller gespeicherten PPen weisen das syntaktische Muster Präposition + Nomen auf, was heißt, dass dieser Gruppe die meisten der extrahierten PPen angehören. b) Mit dem Artikel fusionierte Präposition + Nomen: im Anflug, beim Thema, zur Routine, zum Renner, zur Farce, zur Stelle, im Handel, im Kommen, vom Fach, am Kippen, im Recht, am Ende, vom Tisch ... Das zweithäufigste syntaktische Muster der PPen ist Artikel-Präposition-Fusion + Nomen. 25% der extrahierten PPen kommen in dieser Form vor. c) Präposition + definiter Artikel + Nomen: aus dem Geschäft, über dem/den Berg, aus den Fugen, unter der Haube, auf der Flucht, auf der Strecke, aus dem Spiel, auf dem Holzweg, in der Diskussion, in der Überzahl, auf der Höhe, auf der Suche, auf dem Sprung ... Zu dieser Gruppe gehören etwa 19% der PPen. Sie setzen sich entweder (i) aus einer Präposition zusammen, die mit dem definiten Artikel nicht fusionieren kann (auf, aus, unter, über ), oder (ii) die innerhalb der PP eingeschlossene NP ist feminin, weshalb die Verschmelzung der Präposition (außer zu) mit dem definiten Artikel im Dativ bzw. Akkusativ nicht möglich ist. Die Vertreter der Gruppen (1b) und (1c) zeigen, dass, wenn die NP innerhalb der PP den definiten Artikel hat und die Präposition mit dem Artikel verschmelzen kann, die Verschmelzung auch tatsächlich stattfindet. Dies ist eine Eigenschaft, die bei allen Vertretern der Gruppe (1b) beobachtet werden kann. Wenn man die Präposition und den Artikel auseinander ziehen würde,

40

würden die idiomatischen PPen (z.B. am Ruder, am Ball, im Eimer, im Aufwind usw.) ihre idiomatische Bedeutung verlieren. Auch die PPen ohne eine idiomatische Bedeutung (z.B. am Leben, im Umlauf, im Gebrauch) bekämen dabei eine andere Lesart (der Artikel würde auf ein bestimmtes Leben bzw. einen bestimmten Umlauf, Gebrauch hindeuten). Die Gruppe (1c) wird ausschließlich von PPen gebildet, bei denen keine Präposition-Artikel-Verschmelzung möglich ist. d) Präposition + indefiniter Artikel + Nomen: an einer Wendemarke, an einem Wendepunkt, in einer Sackgasse Wie bereits in 4.1.1 angemerkt, kommt der unbestimmte Artikel äußerst selten innerhalb der extrahierten prädikativen PPen vor. 2. PPen mit inneren Modifikatoren a) Präposition + Modifikator + Nomen: von unschätzbarem Wert, auf striktem Sparkurs, von großer Bedeutung, in ausgelassener Stimmung, bei guter Gesundheit, fern aller Wirklichkeit, von kurzer Dauer, in aller Munde ... Die PPen dieser Gruppe schließen in den meisten Fällen ein Adjektiv ein. Allerdings können manche auch ohne ein modifizierendes Adjektiv oder Possessivpronomen auftreten, was anhand der ausgerechneten Werte für die inneren Modifikatoren der PPen ersichtlich wird: anzahl| pp_lemma | mod_in ------+------------+-------------------------------------------4 |in:Tuch |{{trocken,0.75},{dunkel,0.25}} 6 |auf:Sparkurs|{{"",0.5},{strikt,0.5}} 49 |in:Stimmung |{{ausgelassen,0.18},{gut,0.16},{"",0.12} ... 240 |von:Dauer |{{kurz,0.43},{"",0.41},{lang,0.08}} b) Präposition + definiter Artikel + Modifikator + Nomen: auf dem falschen Dampfer, auf dem absteigenden Ast anzahl| pp_lemma | def | mod_in ------+-----------+-----------------------+-------------------7 |auf:Dampfer|{{Def,0.86},{Ind,0.14}}|{{falsch,0.5}, | | | {andere,0.13},... } 13 |auf:Ast |{{Def,1.0}} |{{absteigend,0.85}, | | | {aufsteigend,0.15}} 3. PP mit äußeren Modifikatoren Modifikator + PP nicht ganz bei Trost, gut in Schuß, nicht in Sicht, knapp bei Kasse, wieder auf freiem Fuß, wohl außerhalb jeder Vorstellungskraft, bald im Endspurt, voll im Trend ...

41

Obwohl den aufgelisteten PPen in den gefundenen Korpusbelegen meistens ein adverbiales Adjektiv oder die Negation voransteht, können auch diese ohne einen Modifikator auftreten, wie die Datenbankeinträge ausgewählter PPen zeigen. anzahl| pp_lemma | mod_out ------+------------+----------------------------------------------2 |auf:Palme |{{wahnsinnig,0.5},{bereits,0.5}} 3 |in:Endspurt | {{"",0.33},{bald,0.33},{"ja gerade",0.33}} 26 |bei:Kasse |{{knapp,0.23},{"",0.19},...,{"nicht gut",0.04}} 234 |auf:Fuß |{{wieder,0.32},{"",0.28},...,{noch,0.06}} 4. PP mit einer koordinierten NP außer Rand und Band, unter Dach und Fach, in Amt und Würden 5. PP mit einer GenitivNP Laut gespeicherten Daten tritt nur eine der extrahierten NPen in der Mehrzahl der gefundenen Korpusbelege mit einer NP im Genitiv auf: im Eifer des Gefechts. Es ist jedoch bei manchen PPen anhand der ausgerechneten Wahrscheinlichkeiten für die GenitivNP ersichtlich, dass sie durchaus mit einer vorkommen können. So ist es möglich, dass die PP auf + Höhepunkt außer in der häufigsten Form auf dem Höhepunkt auch mit einer GenitivNP auftritt: auf dem Höhepunkt der Krise/unserer Karriere/der Konzeptkunst. Die NP auf + Höhe kommt in 30% der gefundenen Korpusbelege in der Form auf der Höhe der Zeit vor. Die PP an + Rand kommt in den meisten gefundenen Korpusbelegen mit einer GenitivNP vor: am Rande des Abgrunds/der Schande/ihrer Kräfte 11 . Die Abbildungen 2a und 2b zeigen die extrahierten PPen und ihre Zugehörigkeit zu einer bestimmten syntaktischen Gruppe. Die Gruppen wurden in Bezug auf die Merkmale der PPen automatisch erstellt. Zu jedem gespeicherten Merkmal (z.B. Definitheit, Präposition-Artikel-Fusion, Modifikator) wurde der wahrscheinlichste Wert ermittelt. So gehört beispielsweise eine PP, deren wahrscheinlichster Definitheitswert Nil ist, zur Gruppe der PPen, die typischerweise ohne einen Artikel vorkommen. Die Gesamtheit der wahrscheinlichsten Werte zu jedem Merkmal gibt Aufschluss über das typische syntaktische Aussehen einer bestimmten PP.

11

Dies ist jedoch aus den berechneten Werten bzgl. der GenitivNP nicht ersichtlich, weil die PP in den betrachteten Korpusbelegen überwiegend als das Subjekt oder Objekt modifizierende Phrase vorkommt (Filme am Rande der Industrie, Debatten am Rande).

42

(22) Ermittlung der syntaktischen Gruppe von auf + Ast: Praep + DefArt + Mod + N anzahl | 13 pp_lemma |auf:Ast verb |{{sein,0.92},... praep_fus|{{Nofus,1.0}} -> Praep + alt_dat |{{"",1.0}} kas |{{Dat,0.94},{Akk,1.0}} num |{{Sg,1.0}} def |{{Def,1.0}} -> DefArt + mod_in |{{absteigend,0.85},... -> Modif mod_out |{{"",0.69},{doch,0.08},... gen |{{"",1.0}} koord |{{"",1.0}} = Praep + DefArt + Modif + N

43

Ohne innere Modifikatoren Praep + N (77)     von:Interesse     zu:Ende     von:Gewicht     von:Nutzen     in:Fahrt     bei:Sinn     auf:Diät     in:Ordnung     auf:Wachstumskurs     auf:Entzug     in:Bewegung     auf:Achse     in:Not     ohne:Echo     auf:Talfahrt     zu:Gast     ohne:Arbeit     auf:Draht     vor:Ort     zu:Wille     in:Gefahr     ohne:Erfolg     außer:Kontrolle     von:Belang     außer:Form     außer:Gefahr     unter:Verschluß     in:Aufruhr     außer:Reichweite     unter:Kontrolle     in:Sicherheit     außer:Lebensgefahr     in:Rente     in:Erinnerung     auf:Reise     von:Eltern     ohne:Ziel     auf:Sendung     von:Nachteil     außer:Betrieb     auf:Trab     auf:Kurs

    in:Arbeit     ohne:Zweifel     in:Mode     unter:Zeitdruck     unter:Druck     ohne:Obdach     bei:Laune     in:Vorbereitung     bei:Bewußtsein     von:Vorteil     außer:Haus     außer:Atem     ohne:Vorbild     ohne:Chance     in:Kraft     außer:Kraft     in:Sichtweite     auf:Irrweg     in:Panik     außer:Kurs     außer:Frage     in:Schwung     in:Sorge     in:Verbindung     ohne:Antwort     in:Haft     in:Betrieb     bei:Kraft     auf:Erfolgskurs     in:Reichweite     ohne:Bedeutung     in:Aussicht     auf:Lebenszeit     in:Form     ohne:Belang     + N (altDat)     zu:Haus PraepFus + N (54)     in:Anflug     bei:Thema     zu:Routine     zu:Renner     zu:Farce     zu:Stelle

    in:Handel     in:Kommen     von:Fach     an:Kippe     in:Recht     an:Ende     von:Tisch     in:Programm     an:Ruder     an:Platz     an:Werk     in:Angebot     an:Ziel     in:Spiel     in:Lot     an:Ball     in:Dienst     in:Bau     zu:Legende     in:Eimer     in:Einsatz     in:Aufwind     an:Leben     in:Zweifel     in:Rahmen     in:Rennen     an:Zug     in:Umlauf     in:Zeitplan     an:Ort     in:Werden     an:Tiefpunkt     in:Unrecht     in:Gespräch     in:Geschäft     in:Amt     in:Busch     an:Boden     in:Vorteil     in:Himmel     in:Begriff     in:Gebrauch     in:Aufbau     in:Verzug     in:Bild     zu:Anfassen

Abbildung 2a: Syntaktische Gruppen der extrahierten PPen 44

    + N (altDat)     in:Gang     an:Rand

Praep + IndefArt + N (2)     in:Sackgasse     an:Wendemarke

Praep + DefArt + N (41)     auf:Tisch     aus:Geschäft     über:Berg     aus:Fugen     unter:Haube     auf:Flucht     auf:Strecke     aus:Spiel     auf:Holzweg     in:Diskussion     in:Überzahl     auf:Höhe     auf:Suche     auf:Sprung     auf:Ferse     auf:Tagesordnung     bei:Sache     von:Socke     aus:Übung     aus:Mode     auf:Hut     bei:Stange     auf:Bein     auf:Hand     aus:Häuschen     auf:Rückzug     auf:Weg     auf:Vormarsch     an:Tagesordnung     für:Katz     an:Spitze     an:Zeit     in:Defensive     auf:Höhepunkt     an:Macht     in:Lage     über:Bühne     aus:Rennen     an:Reihe     auf:Nullpunkt     auf:Siedepunkt

Mit inneren Modifikatoren Praep + Modif + N (14)     von:Wert     auf:Sparkurs     von:Bedeutung     in:Stimmung     bei:Gesundheit     fern:Wirklichkeit     von:Dauer     von:Wichtigkeit     in:Verfassung     in:Tuch     in:Element     von:Qualität     auf:Gegenkurs     + N (altDat)     in:Mund

    aus:Puste      in:Angst Modif + Praep + Modif + N (3)     auf:Fuß     außerhalb:Vorstellungskraft     fern:Realität Modif + PraepFus + DefArt +  N (2)     in:Endspurt     in:Trend Mit einer koordinierten NP Praep + N + Koord (2)     außer:Rand     unter:Dach Mit einer GenitivNP PraepFus + N + GenNP (1)     in:Eifer

Praep + Modif + N (2)     auf:Dampfer     auf:Ast Mit äußeren Modifikatoren Modif + Praep + N (7)     bei:Trost     in:Schuß     in:Sicht     bei:Kasse     bei:Verstand     ohne:Wirkung     ohne:Folge Modif + Praep + DefArt + N  (6)     auf:Palme     aus:Häusle     von:Rolle     neben:Spur  

Abbildung 2b: Syntaktische Gruppen der extrahierten PPen 45

5 Verwendung extrahierter Präpositionalphrasen Feste Wortverbindungen (Mehrwortausdrücke und Kollokationen), idiomatische und nichtidiomatische, weisen einige Besonderheiten in Hinsicht auf ihren Gebrauch auf, die aus den Regeln der Grammatik nicht abzuleiten sind. Während Muttersprachler solche Ausdrücke im Zuge des Spracherwerbs mitlernen, fehlt einem Fremdsprachenlerner diese kookkurrenzielle bzw. idiomatische Bibliographie [Steyer 2003(a)]. Sie muss gelernt werden. Dies erfordert die Erfassung üblicher Wortverbindungen in einem Wörterbuch, was von der Fremdsprachendidaktik seit langem erkannt worden ist [Steyer 2003(a)]. Für den Benutzer eines solchen Wörterbuchs ist es einerseits wichtig, die Bedeutung idiomatischer Ausdrücke zu erfahren, und andererseits, die Informationen über den Gebrauch einer Kollokation oder eines Idioms zu finden. Auf der anderen Seite ist ein elektronisches Lexikon der Kollokationen und Idiome für die maschinelle Sprachverarbeitung wünschenswert. Manche Teilgebiete der Computerlinguistik wie beispielsweise die Textgenerierung brauchen Informationen über die Benutzung der Kollokationen und Idiome, um einen Text erzeugen zu können, der keine für die Zielsprache unüblichen Konstruktionen enthält. Im Folgenden werden einige Anwendungsbereiche vorgestellt, für die die detaillierte lexikalische Erfassung von festen Wortverbindungen (zu denen auch die extrahierten prädikativen PPen gehören) von großem Nutzen ist.

5.1 Textproduktion Da die nicht idiomatischen, festen Ausdrücke und Idiome einer Sprache oft besondere morphologische und syntaktische Eigenschaften haben, ist es im Prozess der Textproduktion nützlich und wichtig zu wissen, wie solche Ausdrücke richtig in den Text eingefügt werden. In einem Wörterbuch, in dem Phraseologismen aufgelistet sind, sollten deshalb die einzelnen Ausdrücke mit allen ihren Charakteristiken angegeben werden. Wenn beispielsweise ein Nicht-Muttersprachler des Deutschen eine bestimmte Wortkombination benutzen möchte, deren typisches Aussehen und den Kontext, in dem sie auftreten kann, aber nicht kennt, möchte er dies in einem Wörterbuch nachschlagen. Das heißt, dass der Wörterbucheintrag zu einer bestimmten festen Wortkombination die Angaben zu ihren morphosyntaktischen Eigenschaften sowie semantischen Restriktionen beinhalten muss. Nehmen wir die Phrase auf + Achse als Beispiel. Der Sprecher weiß, dass es diese Wortkombination gibt, aber er weiß nicht, dass die Phrase die vom Sprecher intendierte idiomatische Bedeutung nur dann hat, wenn sie in Form auf Achse vorkommt, also ohne einen Artikel. Diese Information müsste aus dem Wörterbucheintrag herauszulesen sein. Wenn er andererseits die Phrase vom Tisch benutzen möchte, muss er zusätzlich zum syntaktischen Aussehen des Ausdrucks wissen, dass der Referent des Ausdrucks, nichts Lebendes sein kann, wie es bei auf Achse der Fall ist (Er/Man/Arno Kuenzler ist immer auf Achse.), sondern etwas Abstraktes: eine Problematik, ein bestimmtes Thema oder eine Angelegenheit (Staatssicherheit/Forderung/Steuersenkungsdebatte ist vom Tisch). Bei den PPen, die eine Modifikation des Kopfnomens der eingeschlossenen NP erlauben, sollte aus dem Wörterbucheintrag ersichtlich sein, um welche Modifikation

46

es sich handelt. So kann zum Beispiel die PP in + Element ein Possessivpronomen einschließen und sonst keinen anderen Modifikator.

5.2 Textrezeption Gegenüber der Textproduktion steht das Textverstehen. Idiomatische Phrasen, unter anderem auch einige extrahierte PPen, haben neben der wörtlichen auch eine idiomatische Bedeutung, die aus den Bedeutungen ihrer Komponenten nicht erschlossen werden kann. Für einen Hörer, der eine solche Phrase richtig deuten möchte, ist es wichtig, dass er die Phrase in einem Wörterbuch mit ihrer Erklärung der idiomatischen Bedeutung finden kann. Der erste Schritt zur Erstellung eines solchen Wörterbuchs ist allerdings die Identifizierung der Ausdrücke, die idiomatisch benutzt werden. Um dies zu machen, kann man verschiedene syntaktische Muster aus großen Textkorpora extrahieren (wie es in dieser Arbeit mit den prädikativen Präpositionalphrasen gemacht worden ist) und anhand ihrer Festigkeit die Idiome herausfiltern, die dann in ein Wörterbuch einfließen würden.

5.3 Textgenerierung - maschinelle Übersetzung Idiome sind aus der Sicht der maschinellen Übersetzung besonders interessant. Da sie nicht wörtlich zu verstehen sind, dürfen sie in den meisten Fällen auch nicht wörtlich übersetzt werden12 . Solche Ausdrücke (Wortfolgen) sollten in einem Lexikon verzeichnet werden, damit sie überhaupt als idiomatisch erkannt werden können. Des Weiteren sollen ihre Entsprechungen in der Zielsprache angegeben werden. Nachdem die Äquivalente bekannt sind, muss die Generierungskomponente des Übersetzungssytems aus dem Wörterbucheintrag des zielsprachlichen Äquivalents den Ausdruck so generieren, wie er üblicherweise benutzt wird. Wie bei der Textproduktion ist es auch an dieser Stelle nötig, dass die morphosyntaktischen Eigenschaften des Idioms mitangegeben sind. So kann verhindert werden, dass der zielsprachliche Ausdruck in einer Form generiert wird, in der er von den Muttersprachlern normalerweise nicht benutzt wird.

5.4 Parsing Prädikative PPen stellen eine Schwierigkeit fürs Parsing dar. Da PPen sowohl als optionale Adjunkte als auch als Verbkomplemente im Satz auftreten können, ergibt sich beim Parsen an dieser Stelle eine funktionale Ambiguität. Der am IMS (Institut für maschinelle Sprachverarbeitung, Uni Stuttgart) verfügbare Parser von [Schiehlen 2003] behält die Komplement/Adjunkt-Ambiguität.

12

Die wörtliche Übersetzung der Idiome ist nur dann möglich, wenn es in der Zielsprache eine äquivalente Entsprechung des zu übersetzenden Ausdrucks gibt [Higi-Wydler 1989].

47

(1)

TOP

NP:1

ist

Die Kulturscheckidee

ADJ|PP/von:4 vom Tisch

Der Syntaxbaum in (1) zeigt die Komplement/Adjunkt-Ambiguität der PP vom Tisch. Der Parser gibt zwei Möglichkeiten für ihre Interpretation an: ADJ - Adjunkt und PP/von:4 - subkategorisierte PP mit Kopf von und Dativ (NP:1 bezeichnet das Subjekt des Satzes). An dieser Stelle ist es allerdings klar, dass die PP keine optionale Ergänzung ist, denn ohne sie wäre der Satz ungrammatisch (vgl. Kapitel 2.1). Es wäre denkbar, dass solche Ambiguitäten mit Hilfe eines Lexikons, in dem die prädikativen PPen verzeichnet sind, aufgelöst werden. Wenn die zu analysierende PP aus dem Satz, der geparst werden soll, in einem solchen Lexikon gefunden wird, also als ein Prädikativ erkannt wird, kann mindestens die Möglichkeit, dass es sich dabei um ein Adjunkt (optionales Element) handelt, ausgeschlossen werden. Genau das scheint bei der PP unter Dach und Fach der Fall zu sein. Sie bekommt nämlich eine andere Analyse. Da sie als eine Einheit, und zwar als ein prädikatives Adverbial, lexikalisiert ist, wird sie auch als solche vom Parser erkannt. Sie wird nicht als optionales Adjunkt betrachtet, sondern als ein komplexer Ausdruck, der sich syntaktisch in der rechten Satzklammer RK befindet. (2)

TOP

NP:1 Der Vertrag

ist

RK unter Dach und Fach

Die Analyse prädikativer PPen sollte einheitlich sein. Da sie als eine, syntaktisch komplexe, Spracheinheit angesehen werden können, die die Eigenschaften des Referenten (Subjekts oder Objekts des Satzes) bezeichnet, sollten sie meiner Meinung nach wie die PP unter Dach und Fach analysiert werden, was die Lexikalisierung prädikativer PPen voraussetzt.

48

6 Ausblick Im Rahmen der vorliegenden Arbeit wurden die prädikativen Präpositionalphrasen aus großen Textkorpora extrahiert und zusammen mit ihren morphosyntaktischen Eigenschaften in einer Datenbank gespeichert. Die Mehrheit der PPen stellt relativ feste Ausdrücke des Deutschen dar. Sie zeigen meist deutliche Präferenzen in Bezug auf verschiedene Kontextparameter wie Definitheit, Präposition-Artikel-Fusion, Modifikation des Nomens der eingeschlossenen NP usw. (z.B. Er ist nicht ganz bei ∅ Trost; Ich bin auf dem Sprung). Idiomatische PPen stellen weiterhin oft semantische Anforderderungen an den Referenten, über den sie etwas aussagen (Das Thema/*Auto ist vom Tisch; Er/*Das Auto ist (ganz) aus dem Häuschen). Die gespeicherten PPen, die prädikativ benutzt werden, also eine Eigenschaft ausdrücken (und keine Orts- oder Zeitangaben darstellen), wurden manuell aus der Menge der gefundenen prädikativen PPen herausgeholt. Da sie jedoch starke morphosyntaktische Präferenzen aufweisen, wäre es denkbar, dass man sie mit Hilfe der Präferenzen automatisch extrahiert (vgl. [Ritz 2005]). Dabei ginge man von der Annahme aus, dass die gewünschten PPen relativ stabil und unveränderlich sind, was sie von anderen PPen unterscheidet. Nach der Berechnung morphosyntaktischer Präferenzen, wie es im Kapitel 3.3.2 beschrieben ist, könnte man evtl. einen Gesamtfestigkeitswert ermitteln, der sich aus den Wahrscheinlichkeiten der häufigsten Werte einzelner Parameter zusammensetzt. Die PPen, die eine zu bestimmende untere Grenze des Festigkeitswertes überschreiten, könnten als potenzielle Kandidaten automatisch extrahiert werden. Die im Rahmen dieser Arbeit extrahierten PPen könnten zur Evaluierung eines solchen Extraktionssystems dienen. Der Vergleich der auf diese Weise erstellten Kandidatenliste mit den PPen in der Datenbank würde zeigen, wie viele von den automatisch extrahierten PPen tatsächlich interessant sind bzw. wie viele prädikative PPen automatisch, aber nicht manuell gefunden worden sind.

49

Literatur [Altmann 2005] Altmann, H.; Hahnemann, S. Syntax fürs Examen. Studien- und Arbeitsbuch, 2., überarbeitete und erweiterte Auflage, VS Verlag für Sozialwissenschaften, 2005 [Brandt 2006] Brandt, P.; Dietrich R.; Schön, G. Sprachwissenschaft, 2. Auflage, Böhlau Verlag, 2006 [Burger 2007] Burger, H. Phraseologie. Eine Einführung am Beispiel des Deutschen, 3. Auflage, Erich Schmidt Verlag, 2007 [Cigoni/Coffey 1998] Cigoni, L.; Coffey, S. A corpus-based study of Italian idiomatic phrases: from citation forms to “real-life” occurences in in Fontenelle. T et al Actes EURALEX ’98 Proceedings, Université de Liège, Liège 1998 [Evert 2004] Evert, S. The Statistical Analysis of Morphosyntactic Distributions in Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004), Lissabon 2004 [Gross 1988] Gross, M. Les limites de la phrase figée in Languages 90, Paris 1988 [Hausmann 2003] Hausmann, F. J. Was sind eigentlich Kollokationen? in Steyer, K. Wortverbindungen - mehr oder weniger fest; Institut für Deutsche Sprache, Jahrbuch 2003, de Gruyter, Berlin 2003 [Heid/Ritz 2005] Heid, U.; Ritz, J. Extracting collocations and their contexts from corpora in Akten COMPLEX-2005, Conference on Computational Lexicography and Text Research, Budapest 2005 [Higi-Wydler 1989] Higi-Wydler, M. Zur Übersetzung von Idiomen. Eine Beschreibung und Klassifizierung deutscher Idiome und ihrer französischen Übersetzungen, Europäische Hochschulschriften, Verlag Peter Lang, 1989 [Kermes 2003] Kermes, H. Off-line (and On-line) Text Analysis for Computational Lexicography, Doktorarbeit am IMS, Universität Stuttgart 2003; Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), Volume 9, Nummer 3 [Kuiper 2004] Kuiper, K. Phraseologie aus der Sicht der generativen Grammatik in Wortverbindungen - mehr oder weniger fest; Institut für Deutsche Sprache, Jahrbuch 2003, de Gruyter, Berlin 2003 [Maienborn 1999] Maienborn, C. Situationsbezug und die Stadien/IndividuenDistinktion bei Kopula-Prädikativ-Konstuktionen in Lang, E. et al. ZAS Papers in Linguistics, Volume 14, Zentrum für Allgemeine Sprachwissenschaft, 1999 [Maienborn 2003] Maienborn, C. Die logische Form von Kopula-Sätzen in Bierwisch, M. et al studia grammatica 56, Akademie Verlag, Berlin 2003

50

[Manning/Schütze 2000] Manning, C. D.; Schütze, H. Foundations of statistical natural language processing, MIT Press, 2000 [Schiehlen 2003] Schiehlen, M. A Cascaded Finite-State Parser for German in EACL 2003, 10th Conference of the European Chapter of the Association for Computational Linguistics, Budapest 2003 [Ritz 2005] Ritz, J. Entwicklung eines Systems zur Extraktion von Kollokationen mittels morphosyntaktischer Features, Diplomarbeit am Institut für maschinelle Sprachverarbeitung - Universität Stuttgart, Stutgart 2005 [Schiller/Teufel/Thielen 1995] Schiller, A.; Teufel, S.; Thielen, C. Guidelines für das Tagging deutscher Textcorpora mit STTS, Institut für maschinelle Sprachverarbeitung - Universität Stuttgart, Seminar für Sprachwissenschaft - Universität Tübingen 1995 [Schmid 1994] Schmid, H. Probabilistic Part-of-Speech Tagging Using Decision Trees in International Conference on New Methods in Language Processing, Manchester, UK 1994 [Seelbach 1999] Seelbach, D. Prädikative adjektivale Ausdrücke: Kodierung und kontrastive Aspekte Frz.-Dtsch in Gippert, J.; Olivier, P. (Hrsg.) Multilinguale Korpora. Codierung, Strukturierung, Analyse. Tagungsband zur 11. Jahrestagung der GLDV. Prag 1999 [Steinitz 1997] Steinitz, R. Valenznotwendige Präpositionalphrasen: weder Argumentnoch Adjunktposition in Dürscheid, C. et al (Hrsg.) Sprache im Fokus 1997 [Steyer 2003(a)] Steyer, K. Kookkurrenz. Korpusmethodik, linguistisches Modell, lexikographische Perspektiven in Steyer, K. Wortverbindungen - mehr oder weniger fest; Institut für Deutsche Sprache, Jahrbuch 2003, de Gruyter, Berlin 2003 [Steyer 2003] Steyer, K. (Hrsg.) Wortverbindungen - mehr oder weniger fest; Institut für Deutsche Sprache, Jahrbuch 2003, de Gruyter, Berlin 2003 [Wikipedia] Wikipedia Prädikativ, http://de.wikipedia.org/wiki/Prädikativum, Abruf im Januar 2009 [Zifonun 1997] Zifonun, G. et al Grammatik der deutschen Sprache, Band 2, de Gruyter, 1997 [Wahrig-Burfeind 2001] Wahrig-Burfeind, R. Wahrig. Deutsches Wörterbuch, Bertelsmann Lexikon Verlag, 2001

51