Repräsentation und linguistische Annotation von ... - Semantic Scholar

28.07.2011 - Am. Bildschirm wird das Posting i.d.R. durch einen. Absatzwechsel von den Beiträgen der. Vorkommunikation abgesetzt. WhatsApp-Dialog ...
2MB Größe 2 Downloads 31 Ansichten
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation: Herausforderungen und Perspektiven Michael Beißwenger

26. 11. 2014 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Internetbasierte Kommunikation

Internetbasierte Kommunikation (IBK) engl. Computer-Mediated Communication (CMC)

Im Fokus der Erforschung internetbasierter Kommunikation stehen nicht beliebige Webtexte, sondern die sprachlichen Äußerungen in dialogischen Webgenres wie z.B. Online-Foren, Chats, Instant Messaging und Wiki-Diskussionen, in Twitter-Postings, in Kommentaren und Diskussionen in Weblogs, auf Videoplattformen (YouTube) und auf den Profilseiten „sozialer Netzwerke“ (Facebook, MySpace) sowie in multimodalen Kommunikationsumgebungen wie Skype, MMORPGs und „virtuellen Welten“ (SecondLife u.a.).

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Ein Blick in die Korpuslandschaft Die Anzahl der frei verfügbaren, linguistisch aufbereiteten Korpora zur IBK steht bislang in einem deutlichen Missverhältnis zum Interesse der Linguistik und der sprachinteressierten Öffentlichkeit an empirischen Befunden zur Sprachverwendung in IBK:  Fehlende Abdeckung des Bereichs IBK in existierenden Referenzkorpora zur deutschen Gegenwartssprache;  sehr wenige frei zugängliche Spezialkorpora.  Kann man „die deutsche Gegenwartssprache“ zum Stand 2014 beschreiben und empirisch untersuchen, wenn man den Kommunikationsbereich IBK (aufgrund fehlender Abdeckung in Korpora) einfach ausspart? (Vgl. u. a. die Befunde der ARD/ZDF-Onlinestudie, der JIMund der KIM-Studie zur Nutzung von IBK-Angeboten in Deutschland) Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Korpusprojekte zur IBK / Sprache in sozialen Medien Projekt: Deutsches Referenzkorpus zur internetbasierten Kommunikation (DeRiK) Ziel: Aufbau einer Zusatzkomponente zu den Korpora des Projekts „Digitales Wörterbuch der deutschen Sprache“ (DWDS), die Sprachdaten aus den wichtigsten Genres internetbasierter Kommunikation umfasst und gemeinsam mit den bereits existierenden Korpusressourcen abgefragt werden kann. ( M. Beißwenger, A. Geyken, L. Lemnitzer, A. Storrer )

 Schließung der „IBK-Lücke“ in den DWDS-Korpora zur deutschen Gegenwartssprache. Vgl. Beißwenger et al. (2013), Beißwenger/Lemnitzer (2013). Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Korpusprojekte zur IBK / Sprache in sozialen Medien

CoMeRe

SoNaR

DeRiK

Web2Corpus_it

Netzwerk „Building & Annotating CMC Corpora“: https://wiki.itmc.tu-dortmund.de/cmc/ Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Korpusprojekte zur IBK / Sprache in sozialen Medien Dortmunder Chat-Korpus http://www.chatkorpus.tu-dortmund.de

Ergebnis eines Lehrstuhlprojekts an der TU Dortmund (2002-2008) (A. Storrer / M. Beißwenger)

CLARIN-D-Kurationsprojekt (F-AG 1 „Deutsche Philologie“, 2015):

ChatCorpus2CLARIN: Integration des Dortmunder Chat-Korpus in die CLARIN-DKorpusinfrastrukturen am Institut für deutsche Sprache (IDS) und an der BerlinBrandenburgischen Akademie der Wissenschaften (BBAW)

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Korpusprojekte zur IBK / Sprache in sozialen Medien

Datensammlung 17.11.2014−11.01.2015 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Herausforderungen beim Aufbau von IBK-Korpora  Die rechtlichen Rahmenbedingungen für die Erhebung, Speicherung, Bearbeitung und Bereitstellung von IBK-Daten für Forschungszwecke sind bislang noch großenteils unklar.  Schnelle Veränderung des Gegenstands: IBK als „moving target“  Hohe Anforderung an Dokumentation und Metadaten  Für die Annotation von Primärdaten aus Genres internetbasierter Kommunikation gibt es derzeit noch keine Standards: 

Texttechnologische Modelle für die Strukturbeschreibung von Textkorpora und von Gesprächstranskripten etabliert sind, werden den strukturellen Besonderheiten von Genres internetbasierter Kommunikation nur bedingt gerecht.



Sprachtechnologische Verfahren für die automatische lingu-istische Annotation von Textkorpora führen bei IBK-Daten zu nicht akzeptablen Ergebnissen (Phänomene „nichtstandardisierter“ Schriftlichkeit).

 Der Aufbau von IBK-Korpora muss als ein eigener Teilbereich der Korpuslinguistik entwickelt werden.  Bartz et al. (2013); Beißwenger et al. (2012); Storrer (2013). Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

IBK-Korpora und andere Typen von Korpora

IBKKorpora

Überschneidung im Merkmal „Geschriebene Sprache“

Überschneidung in den Merkmalen „Dialogische Sprachverwendung“ und „Konzeptionelle Mündlichkeit“

TextKorpora

GesprächsKorpora

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

IBK-Korpora und andere Typen von Korpora

IBKKorpora konzeptionell mündlich dia logisch

medial schriftlich „en bloc“-Übermittlung (zeitliche Entkopplung von Produktion, Übermittlung und Rezeption)

„on-line“ -Verbalisierung medial mündlich

mono logisch konzeptionell schriftlich

TextKorpora IBK = „untypische Texte“

GesprächsKorpora IBK = „untypische Gespräche“

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

IBK-Korpora und andere Typen von Korpora

IBKKorpora

Überschneidung im Gegenstand „Daten aus Webgenres“

konzeptionell mündlich dia logisch

IBK

WebKorpora

medial schriftlich „en bloc“-Übermittlung (zeitliche Entkopplung von Produktion, Übermittlung und Rezeption)

„on-line“ -Verbalisierung medial mündlich

mono logisch konzeptionell schriftlich

TextKorpora IBK = „untypische Texte“

GesprächsKorpora IBK = „untypische Gespräche“

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

IBK-Korpora und andere Typen von Korpora

IBKKorpora  IBK-Genres und zugehörige sprachliche Phänomene bilden den zentralen Gegenstand dees Korpus

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

IBK

IBK = „noise“

WebKorpora

 Primärer Fokus i.d.R. auf der Sammlung großer Datenmengen (zu unterschiedlichen schriftlichen Webgenres) und weniger auf der Modellierung und Annotation interpersonaler Kommunikation in Foren, Chats, sozialen Netzwerken (die für ling. + sozialwiss. Analysen von Interesse ist) M. Beißwenger, 26.11.2014

IBK-Korpora und andere Typen von Korpora

IBKKorpora

IBK

IBK = „noise“

TextKorpora IBK = „untypische Texte“

WebKorpora

GesprächsKorpora IBK = „untypische Gespräche“

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Desiderat 1: Texttechnologische Modellierung IBK = „untypische Texte“ / „untypische Gespräche“: Existierende Standards für die Strukturbeschreibung von Textkorpora und von Gesprächstranskripten sind nur bedingt geeignet, die strukturellen Besonderheiten von schriftlicher IBK zu erfassen.  Forschungsdesiderat: 1) Anpassung texttechnologischer Standards für die Repräsentation von IBK-Genres und -Korpora (Strukturannotation, Metadaten)  Interoperabilität von IBK-Ressourcen

TEI Encoding Framework (http://tei-c.org): De-factoStandard im Bereich der Digital Humanities

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Desiderat 1: Texttechnologische Modellierung customization “Because the TEI Guidelines must cover such a broad domain and user community, it is essential that they be customizable: both to permit the creation of manageable subsets that serve particular purposes, and also to permit usage in areas that the TEI has not yet envisioned.”

Kustomisiertes TEI-Schema für IBK-Genres in DeRiK (Beißwenger et al. 2012)

TEI Encoding Framework (http://tei-c.org): De-factoStandard im Bereich der Digital Humanities

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Desiderat 1: Texttechnologische Modellierung

Modellierungsoptionen im TEI-Standard (Version P5): Grundlegende Strukturelemente von Texten:

- paragraph

- division Grundlegendes Strukturelement von Gesprächstranskripten: - utterance Grundlegendes Strukturelement von Dramentexten: - speech Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Zwischen text und speech: Postings in schriftlicher IBK Grundlegende Einheit „getippter Dialoge“: das Posting: eine Zeichenfolge, die ein Nutzer an den Server schickt, um damit einen Dialogbeitrag zu realisieren. Der Prozess der Produktion ist für die Adressaten nicht einsehbar, die Rezeption erfolgt nachträglich zur Verbalisierung. Am Bildschirm wird das Posting i.d.R. durch einen Absatzwechsel von den Beiträgen der Vorkommunikation abgesetzt.

1 zora freut sich über ihr zeugniss :))) 2 quaki:

*aufpluster*

3 system:

Thor... betritt den Raum.

4 marc30:

ich mal wieder nich...

5 quaki:

was hast denn zori??

6 quaki:

erzähl

7 system:

stoeps kommt aus dem Raum Number_of_the_beast herein.

8 Lantonie:

Das hast du dir verdient, zori?

ChatLogfile

9 TomcatMJ: oh man wat fürn krawall hier draußen...*guck* 10 zora:

nur einsen *brustschwell*

11 system:

Emon betritt den Raum.

12 stoeps:

ree :-)))

13 Emon:

reee

14 system:

Emon ist wieder da.

15 stoeps:

r emon

Freibad statt Tunnel

1

In Schwäbisch Gmünd wurde ein Name für einen neu gebauten Strassentunnel gesucht. Dank Aktionen im Facebook gelang es der Gruppe die den Namen Bud Spencer Tunnel wollte die Abstimmung deutlich zu gewinnen. Es kam jedoch anders. Die Abstimmung und somit der Name wurden vom Gemeinderat abgelehnt. Als Kompromiss wird nun das örtliche Freibad in "Bad Spencer" umbenannt. Nachzulesen in 2 Artikeln in den Printmedien. • •

Gescheiterter Bud-Spencer-Tunnel/Focus.de Artikel im Tages-Anzeiger Zürich

Sollte diese Geschichte im Artikel erwähnt werden? --Netpilots -?- 10:36, 28. Jul. 2011 (CEST)

2

3

Ja, sollte eigentlich. Aber der Starrsinn hat bisher über die Vernunft gesiegt. Wahrscheinlich muss vor einer Bearbeitung des Artikels Spencers Tod abgewartet werden, da die Darstellung von Sachverhalten einer noch lebenden Person sonst als „Live-Ticker“ revertiert werden könnte. Klingt zynisch? Soll's auch. -- Jamiri 11:56, 28. Jul. 2011 (CEST) Wird auch relevant für den Artikel, wenn das Schild dran hängt und Freikarten für die Eröffnung gültig werden. Namen sind derzeit immer noch Gerüchte... von "Bad Spencer" wie geil ist das denn \(^_^)/ bis über "Frei-Bud" Schenkelklopfer? . Wer braucht sonst noch ein Taschentuch? (*_*) deeleres 13:35, 28. Jul. 2011 (CEST) ansprechen

4

5

WhatsApp-Dialog Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

Vorschlag zur Güte: Man läßt den Kram mit dem Freibad (zunächst) unerwähnt und schreibt lediglich ein Kapitel über die bereits beendete (!!!) öffentliche Wahl zur Benennung des Straßentunnels (Kurzform: Bürger sollten über Namen eines Tunnels abstimmen – „Bud-Spencer-Tunnel“ war der SiegerVorschlag – die Stadt Schwäbisch Gmünd hat diesen Vorschlag abgelehnt) -Jamiri 14:23, 28. Jul. 2011 (CEST) Ich hab grundsätzlich nichts dagegen, wenn es irgendwie erwähnt werden wird. Nur es ist immer noch nichts passiert - etabliertes Wissen ist ja vorausgesetzt und das tun wir im Moment nicht außer Tod oder vll. die Zukunft der Erde. Das Echo ist zwar laut, die Welle aber auch nicht wirklich hoch. Ich würde es jetzt nicht reinschreiben wollen und das gemähte Gras wieder wachsen lassen. Die Bud-Spencer-Statue - New York setzt auf den Koloss von Liberty Island (^_^) die Welle wäre wohl um einiges höher deeleres 15:43, 28. Jul. 2011 (CEST)

Wikipedia-Diskussionsseite ansprechen

M. Beißwenger, 26.11.2014

Postings: weder , noch

oder

TEXT

SPOKEN CONV.

Written CMC shares characteristics both with monologic text and spoken conversation: CMC is dialogic interaction in which each communivative move creates/changes the context for follow-up moves. CMC discourse is organized in (and displayed on the screen as) sequences of stretches of written text which may contain internal textual structuring (use of line breaks/paragraphs, lists, varying font face, size, color and weight, embedded media objects etc.). Under aspects of planning and coherence, the similarity with paragraphs in monologic texts and with speeches in performance texts is just a formal, not a functional one: there is no author who planned the entire dialogue in advance; instead, the dialogue is developed by the users as they go along with each posting creating the context for the partners’ next moves. Unlike spoken utterances, the production of people’s contributions to CMC dialogues is text-like: they are first (1) composed by their authors in their entirety, then (2) sent to the server, then (3) displayed on the screen as written messages before (4) they can be read and replied by other interlocutors.

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Postings: weder , noch

oder

TEXT

SPOKEN CONV.

Written CMC shares characteristics both with monologic text and spoken conversation: CMC is dialogic interaction in which each communivative move creates/changes the context for follow-up moves. CMC discourse is organized in (and displayed on the screen as) sequences of stretches of written text which may contain internal textual structuring (use of line breaks/paragraphs, lists, varying font face, size, color and weight, embedded media objects etc.). Under aspects of planning and coherence, the similarity with paragraphs in monologic texts and with speeches in performance texts is just a formal, not a functional one: there is no author who planned the entire dialogue in advance; instead, the dialogue is developed by the users as they go along with each posting creating the context for the partners’ next moves. Unlike spoken utterances, the production of people’s contributions to CMC dialogues is text-like: they are first (1) composed by their authors in their entirety, then (2) sent to the server, then (3) displayed on the screen as written messages before (4) they can be read and replied by other interlocutors.

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Vorschlag für ein neues TEI-Modell Decision: TEI module text strucure as the basis for our schema  allows us to describe the inner structure of postings with standard TEI elements for text structure, text design etc.

: a content unit that is being sent to the server “en bloc”.  The posting model: o a block of written text which may contain paragraphs and other types of internal textual structuring  defined as model.divLike o each posting is assigned an author  additional attribute @who from the att.ascribed class which „provides attributes for elements representing speech or action that can be ascribed to a specific individual“. In the TEI standard, att.ascribed cannot occur with
(but, e.g., with from the TEI module transcribed speech).  The concept of the element takes into account the hybrid character of written user contributions to CMC dialogues Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

TEI-SIG Computer-Mediated Communication http://www.tei-c.org/Activities/SIG/CMC/

Special SpecialInterest InterestGroup Groupim imRahmen Rahmender derTEI: TEI: seit seit2013: 2013:Erarbeitung Erarbeitungeines einesEntwurfs Entwurfszu zueinem einemTEITEIStandard Standardfür fürdie dieAnnotation Annotationvon vonIBK-Genres IBK-Genres (unter (unterBerücksichtigung Berücksichtigungsowohl sowohlschriftlicher schriftlicherals alsauch auch multimodaler multimodalerGenres): Genres): --IBK-Makrostrukturen IBK-Makrostrukturen --IBK-Mikrostrukturen IBK-Mikrostrukturen --Metadaten Metadaten Beteiligte Beteiligteaus ausKorpusprojekten Korpusprojektenzu zuversch. versch.Sprachen Sprachen (CoMeRe, (CoMeRe,DeRiK, DeRiK,SoNaR, SoNaR,Web2Corpus_it, Web2Corpus_it,Dortmunder Dortmunder Chat-Korpus, Chat-Korpus,Mannheimer MannheimerWikipedia-Korpus, Wikipedia-Korpus,...) ...)

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

IBK-Makro- und -Mikrostrukturen

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Desiderat 2: Linguistische Verarbeitung/Annotation IBK = „untypische Texte“ / „untypische Gespräche“: Verfahren für die automatische linguistische Analyse von Textdaten liefern für IBK unbefriedigende Ergebnisse  Forschungsdesiderat: Anpassung von Tagsets und Verfahren/Werkzeugen für die linguistische Annotation  Suche über linguistischen Annotationen

Problemaufriss am Beispiel von Experimenten mit NLP-Tools in WebLicht: Bartz et al. (2013)

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Typische Verarbeitungsprobleme a) Segmentierungsprobleme: ergeben sich dadurch, dass auf der Ebene der automatischen Tokenisierung Zeichenfolgen als Tokens konstituiert werden, die beim POS-Tagging nicht sinnvoll weiter analysiert werden können.  Gründe: irreguläre Verwendung von Spatien; Nutzung von Interpunktions- und Sonderzeichen für die Bildung von Emoticons und für die Kennzeichnung von Aktionswörtern.

b) Klassifizierungsprobleme: ergeben sich auf der Ebene des POSTagging und bestehen darin, dass bestimmte Tokens, für die im verwendeten POS-Tagsets geeignete Kategorien existieren, aufgrund nicht-standardkonformer Formmerkmale nicht mit dem entsprechenden Tag versehen werden können.  Gründe: u.a. Schnellschreibphänomene, Phänomene geschriebener Umgangssprache, IBK-typische Akronyme.

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Typische Verarbeitungsprobleme c) Kategorienprobleme: inkorrekte Zuordnung von POS-Kategorien zu Tokens beruht darauf, dass für die Zielkategorien im Tagset keine Tags vorgesehen sind: u.a. Emoticons, Aktionswörter, Adressierungen, Hashtags, umgangssprachliche kontraktierte Formen (haste, biste, willste, machstes; aufm; isn usw.).

Ein Teil der Verarbeitungsprobleme (a + b) lässt sich entweder über eine Normalisierung der Daten oder über eine Anpassung der Verarbeitungswerkzeuge bearbeiten. Für bestimmte Phänomene müssen neue Kategorien in die Tagsets eingeführt werden, um sie auf der Ebene des POS-Taggings sinnvoll behandeln zu können. Anschließend müssen Verarbeitungsverfahren auf den Umgang mit diesen Kategorien trainiert werden.

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Vorschlag: Erweiterung des STTS für IBK-Korpora

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Vorschlag: Erweiterung des STTS für IBK-Korpora

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Shared Task zur linguistischen Verarbeitung von IBK Community Shared Task zur automatischen linguistischen Annotation von IBK-Daten (2015), initiiert von Mitgliedern des Empirikom-Netzwerks und unterstützt durch die GSCL Fokus:  Tokenisierung  Part-of-Speech-Annotation Grundlage:  Handannotierte Trainingsund Evaluationsdaten (Goldstandard) Ziel:  Anpassung automatischer Verfahren an den Umgang mit IBK-Schriftlichkeit (in einem kompetitiven Szenario) Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

Tag

Kategorie

Beispiele

I. Tags für IBK-spezifische Phänomene: EMO ASC

Emoticon, als Zeichenfolge dargestellt (Typ „ASCII“)

EMO IMG

Emoticon, als Grafik-Ikon dargestellt (Typ „Image“)

:-) :-( ^^ O.O

AKW

Aktionswort

*lach*, freu, grübel, *lol*

HST

Hashtag

Kreta war super! #urlaub

ADR

Adressierung

@lothar: Wie isset so?

URL

Uniform Resource Locator

http://www.tu-dortmund.de

EML

E-Mail-Adresse

[email protected]

II. Tags für Phänomene der konzeptionellen Mündlichkeit: VV PPER APPR ART VM PPER

Tags für die häufigsten Bildungsmuster kontraktierter Formen (APPRART ist in STTS bereits vorhanden)

schreibste, machste vorm, überm, fürn willste, darfste, musste

VA PPER

haste, biste, isses

KOUS PPER

wenns, weils, obse

PPER PPER

ichs, dus, ers

ADV ART

son, sone

PTK IFG

Intensitäts-, Fokus- oder Gradpartikel

sehr schön, höchst eigenartig, nur sie, voll geil

PTK MA

Modal- oder Abtönungspartikel

Das ist ja / vielleicht doof. Ist das denn richtig so? Das war halt echt nicht einfach.

DM

Diskursmarker

prototypisch: weil, obwohl, nur, also als Einheiten mit projektivem Potenzial im Vorvorfeld von V2-Sätzen

ONO

Onomatopoetikon

boing, miau, zisch

STTS-Tagset mit Erweiterungen für IBK und für gesprochene Sprache (Beißwenger, Bartz, Storrer, Westpfahl; forthc.) M. Beißwenger, 26.11.2014

Shared Task zur linguistischen Verarbeitung von IBK Two data sets:  “CMC data set”: data from several CMC genres (chat, Wikipedia discussions, blog comments, tweets, forums/social networks) (all data CC-licensed or donated) responsible for building & annotating the CMC data set: Michael Beißwenger (Dortmund), Kay-Michael Würzner (Berlin)

 “web corpora datas set”: main focus on monologic www pages but with a small portion of CMC included (forum threads, blog comments, ...) – representing the heterogeneous character of web corpora that have been automatically crawled from the web (all data CC-licensed) responsible for building & annotating the CMC data set: Sabine Bartsch (Darmstadt), Stefan Evert (Erlangen)

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Shared Task zur linguistischen Verarbeitung von IBK

Guidelines will be made available together with the trial data / full task. Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Shared Task zur linguistischen Verarbeitung von IBK April 2015 minus X: Release of trial data (manually tagged) and tagset / guidelines April 2015: Release of full task: - description of task - complete data sets + training data June 15-28, 2015: evaluation period September 2015: presentation & discussion of results in a workshop @ GSCL conference 2015 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Aufbau und Annotation von IBK-Korpora: Perspektiven design and evaluate annotation schemas categories of analysis for linguistic phenomena; CMC research

evaluate and adapt tools / tagsets

tools for automatic linguistic analysis

Text Technology

Linguistics

Building and annotating CMC corpora

Natural Language Processing

represent corpora

Corpus Linguistics

add and store annotations to corpus data Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

standards for the annotation of linguistic data structures; metadata

methods and technologies for corpus collection and maintenance

Beißwenger (in prep.) M. Beißwenger, 26.11.2014

GSCL-Arbeitskreis „Social Media / IBK“ http://gscl.org/ak-ibk.html

Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Literatur Bartz, Thomas; Beißwenger, Michael; Storrer, Angelika (2013): Optimierung des Stuttgart-TübingenTagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge. In: Journal for Language Technology and Computational Linguistics 28 (1), 157-198. http://www.jlcl.org/2013_Heft1/7Bartz.pdf Beißwenger, Michael (2013): Das Dortmunder Chat-Korpus. In: Zeitschrift für germanistische Linguistik 41/1, 161-164. Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2013): DeRiK: A German Reference Corpus of Computer-Mediated Communication. In: Literary and Linguistic Computing (DOI: 10.1093/llc/fqt038). Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2012): A TEI Schema for the Representation of Computer-mediated Communication. In: Journal of the Text Encoding Initiative (jTEI), Issue 3, November 2012 (DOI: 10.4000/jtei.476). Online: http://jtei.revues.org/476 Beißwenger, Michael; Lemnitzer, Lothar (2013): Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS). In: Journal for Language Technology and Computational Linguistics 26 (2) (Themenheft „Webkorpora in Computerlinguistik und Sprachforschung“, hrsg. v. Alexander Mehler, Roman Schneider & Angelika Storrer), 1-22. http://www.jlcl.org/2013_Heft2/1BeiLem.pdf Angelika Storrer (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze – empirische Befunde. In: Sprachverfall? Dynamik – Wandel – Variation. Jahrbuch des Instituts für Deutsche Sprache 2013. Sutter, Tilmann; Mehler, Alexander (Hrsg., 2010): Medienwandel als Wandel von Interaktionsformen. Wiesbaden: Verlag für Sozialwissenschaften. Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014

Herzlichen Dank für Ihre Aufmerksamkeit!

Michael Beißwenger

26. 11. 2014 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation

M. Beißwenger, 26.11.2014