Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation: Herausforderungen und Perspektiven Michael Beißwenger
26. 11. 2014 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Internetbasierte Kommunikation
Internetbasierte Kommunikation (IBK) engl. Computer-Mediated Communication (CMC)
Im Fokus der Erforschung internetbasierter Kommunikation stehen nicht beliebige Webtexte, sondern die sprachlichen Äußerungen in dialogischen Webgenres wie z.B. Online-Foren, Chats, Instant Messaging und Wiki-Diskussionen, in Twitter-Postings, in Kommentaren und Diskussionen in Weblogs, auf Videoplattformen (YouTube) und auf den Profilseiten „sozialer Netzwerke“ (Facebook, MySpace) sowie in multimodalen Kommunikationsumgebungen wie Skype, MMORPGs und „virtuellen Welten“ (SecondLife u.a.).
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Ein Blick in die Korpuslandschaft Die Anzahl der frei verfügbaren, linguistisch aufbereiteten Korpora zur IBK steht bislang in einem deutlichen Missverhältnis zum Interesse der Linguistik und der sprachinteressierten Öffentlichkeit an empirischen Befunden zur Sprachverwendung in IBK: Fehlende Abdeckung des Bereichs IBK in existierenden Referenzkorpora zur deutschen Gegenwartssprache; sehr wenige frei zugängliche Spezialkorpora. Kann man „die deutsche Gegenwartssprache“ zum Stand 2014 beschreiben und empirisch untersuchen, wenn man den Kommunikationsbereich IBK (aufgrund fehlender Abdeckung in Korpora) einfach ausspart? (Vgl. u. a. die Befunde der ARD/ZDF-Onlinestudie, der JIMund der KIM-Studie zur Nutzung von IBK-Angeboten in Deutschland) Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Korpusprojekte zur IBK / Sprache in sozialen Medien Projekt: Deutsches Referenzkorpus zur internetbasierten Kommunikation (DeRiK) Ziel: Aufbau einer Zusatzkomponente zu den Korpora des Projekts „Digitales Wörterbuch der deutschen Sprache“ (DWDS), die Sprachdaten aus den wichtigsten Genres internetbasierter Kommunikation umfasst und gemeinsam mit den bereits existierenden Korpusressourcen abgefragt werden kann. ( M. Beißwenger, A. Geyken, L. Lemnitzer, A. Storrer )
Schließung der „IBK-Lücke“ in den DWDS-Korpora zur deutschen Gegenwartssprache. Vgl. Beißwenger et al. (2013), Beißwenger/Lemnitzer (2013). Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Korpusprojekte zur IBK / Sprache in sozialen Medien
CoMeRe
SoNaR
DeRiK
Web2Corpus_it
Netzwerk „Building & Annotating CMC Corpora“: https://wiki.itmc.tu-dortmund.de/cmc/ Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Korpusprojekte zur IBK / Sprache in sozialen Medien Dortmunder Chat-Korpus http://www.chatkorpus.tu-dortmund.de
Ergebnis eines Lehrstuhlprojekts an der TU Dortmund (2002-2008) (A. Storrer / M. Beißwenger)
CLARIN-D-Kurationsprojekt (F-AG 1 „Deutsche Philologie“, 2015):
ChatCorpus2CLARIN: Integration des Dortmunder Chat-Korpus in die CLARIN-DKorpusinfrastrukturen am Institut für deutsche Sprache (IDS) und an der BerlinBrandenburgischen Akademie der Wissenschaften (BBAW)
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Korpusprojekte zur IBK / Sprache in sozialen Medien
Datensammlung 17.11.2014−11.01.2015 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Herausforderungen beim Aufbau von IBK-Korpora Die rechtlichen Rahmenbedingungen für die Erhebung, Speicherung, Bearbeitung und Bereitstellung von IBK-Daten für Forschungszwecke sind bislang noch großenteils unklar. Schnelle Veränderung des Gegenstands: IBK als „moving target“ Hohe Anforderung an Dokumentation und Metadaten Für die Annotation von Primärdaten aus Genres internetbasierter Kommunikation gibt es derzeit noch keine Standards:
Texttechnologische Modelle für die Strukturbeschreibung von Textkorpora und von Gesprächstranskripten etabliert sind, werden den strukturellen Besonderheiten von Genres internetbasierter Kommunikation nur bedingt gerecht.
Sprachtechnologische Verfahren für die automatische lingu-istische Annotation von Textkorpora führen bei IBK-Daten zu nicht akzeptablen Ergebnissen (Phänomene „nichtstandardisierter“ Schriftlichkeit).
Der Aufbau von IBK-Korpora muss als ein eigener Teilbereich der Korpuslinguistik entwickelt werden. Bartz et al. (2013); Beißwenger et al. (2012); Storrer (2013). Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
IBK-Korpora und andere Typen von Korpora
IBKKorpora
Überschneidung im Merkmal „Geschriebene Sprache“
Überschneidung in den Merkmalen „Dialogische Sprachverwendung“ und „Konzeptionelle Mündlichkeit“
TextKorpora
GesprächsKorpora
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
IBK-Korpora und andere Typen von Korpora
IBKKorpora konzeptionell mündlich dia logisch
medial schriftlich „en bloc“-Übermittlung (zeitliche Entkopplung von Produktion, Übermittlung und Rezeption)
„on-line“ -Verbalisierung medial mündlich
mono logisch konzeptionell schriftlich
TextKorpora IBK = „untypische Texte“
GesprächsKorpora IBK = „untypische Gespräche“
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
IBK-Korpora und andere Typen von Korpora
IBKKorpora
Überschneidung im Gegenstand „Daten aus Webgenres“
konzeptionell mündlich dia logisch
IBK
WebKorpora
medial schriftlich „en bloc“-Übermittlung (zeitliche Entkopplung von Produktion, Übermittlung und Rezeption)
„on-line“ -Verbalisierung medial mündlich
mono logisch konzeptionell schriftlich
TextKorpora IBK = „untypische Texte“
GesprächsKorpora IBK = „untypische Gespräche“
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
IBK-Korpora und andere Typen von Korpora
IBKKorpora IBK-Genres und zugehörige sprachliche Phänomene bilden den zentralen Gegenstand dees Korpus
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
IBK
IBK = „noise“
WebKorpora
Primärer Fokus i.d.R. auf der Sammlung großer Datenmengen (zu unterschiedlichen schriftlichen Webgenres) und weniger auf der Modellierung und Annotation interpersonaler Kommunikation in Foren, Chats, sozialen Netzwerken (die für ling. + sozialwiss. Analysen von Interesse ist) M. Beißwenger, 26.11.2014
IBK-Korpora und andere Typen von Korpora
IBKKorpora
IBK
IBK = „noise“
TextKorpora IBK = „untypische Texte“
WebKorpora
GesprächsKorpora IBK = „untypische Gespräche“
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Desiderat 1: Texttechnologische Modellierung IBK = „untypische Texte“ / „untypische Gespräche“: Existierende Standards für die Strukturbeschreibung von Textkorpora und von Gesprächstranskripten sind nur bedingt geeignet, die strukturellen Besonderheiten von schriftlicher IBK zu erfassen. Forschungsdesiderat: 1) Anpassung texttechnologischer Standards für die Repräsentation von IBK-Genres und -Korpora (Strukturannotation, Metadaten) Interoperabilität von IBK-Ressourcen
TEI Encoding Framework (http://tei-c.org): De-factoStandard im Bereich der Digital Humanities
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Desiderat 1: Texttechnologische Modellierung customization “Because the TEI Guidelines must cover such a broad domain and user community, it is essential that they be customizable: both to permit the creation of manageable subsets that serve particular purposes, and also to permit usage in areas that the TEI has not yet envisioned.”
Kustomisiertes TEI-Schema für IBK-Genres in DeRiK (Beißwenger et al. 2012)
TEI Encoding Framework (http://tei-c.org): De-factoStandard im Bereich der Digital Humanities
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Desiderat 1: Texttechnologische Modellierung
Modellierungsoptionen im TEI-Standard (Version P5): Grundlegende Strukturelemente von Texten:
- paragraph
- division Grundlegendes Strukturelement von Gesprächstranskripten: - utterance Grundlegendes Strukturelement von Dramentexten: - speech Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Zwischen text und speech: Postings in schriftlicher IBK Grundlegende Einheit „getippter Dialoge“: das Posting: eine Zeichenfolge, die ein Nutzer an den Server schickt, um damit einen Dialogbeitrag zu realisieren. Der Prozess der Produktion ist für die Adressaten nicht einsehbar, die Rezeption erfolgt nachträglich zur Verbalisierung. Am Bildschirm wird das Posting i.d.R. durch einen Absatzwechsel von den Beiträgen der Vorkommunikation abgesetzt.
1 zora freut sich über ihr zeugniss :))) 2 quaki:
*aufpluster*
3 system:
Thor... betritt den Raum.
4 marc30:
ich mal wieder nich...
5 quaki:
was hast denn zori??
6 quaki:
erzähl
7 system:
stoeps kommt aus dem Raum Number_of_the_beast herein.
8 Lantonie:
Das hast du dir verdient, zori?
ChatLogfile
9 TomcatMJ: oh man wat fürn krawall hier draußen...*guck* 10 zora:
nur einsen *brustschwell*
11 system:
Emon betritt den Raum.
12 stoeps:
ree :-)))
13 Emon:
reee
14 system:
Emon ist wieder da.
15 stoeps:
r emon
Freibad statt Tunnel
1
In Schwäbisch Gmünd wurde ein Name für einen neu gebauten Strassentunnel gesucht. Dank Aktionen im Facebook gelang es der Gruppe die den Namen Bud Spencer Tunnel wollte die Abstimmung deutlich zu gewinnen. Es kam jedoch anders. Die Abstimmung und somit der Name wurden vom Gemeinderat abgelehnt. Als Kompromiss wird nun das örtliche Freibad in "Bad Spencer" umbenannt. Nachzulesen in 2 Artikeln in den Printmedien. • •
Gescheiterter Bud-Spencer-Tunnel/Focus.de Artikel im Tages-Anzeiger Zürich
Sollte diese Geschichte im Artikel erwähnt werden? --Netpilots -?- 10:36, 28. Jul. 2011 (CEST)
2
3
Ja, sollte eigentlich. Aber der Starrsinn hat bisher über die Vernunft gesiegt. Wahrscheinlich muss vor einer Bearbeitung des Artikels Spencers Tod abgewartet werden, da die Darstellung von Sachverhalten einer noch lebenden Person sonst als „Live-Ticker“ revertiert werden könnte. Klingt zynisch? Soll's auch. -- Jamiri 11:56, 28. Jul. 2011 (CEST) Wird auch relevant für den Artikel, wenn das Schild dran hängt und Freikarten für die Eröffnung gültig werden. Namen sind derzeit immer noch Gerüchte... von "Bad Spencer" wie geil ist das denn \(^_^)/ bis über "Frei-Bud" Schenkelklopfer? . Wer braucht sonst noch ein Taschentuch? (*_*) deeleres 13:35, 28. Jul. 2011 (CEST) ansprechen
4
5
WhatsApp-Dialog Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
Vorschlag zur Güte: Man läßt den Kram mit dem Freibad (zunächst) unerwähnt und schreibt lediglich ein Kapitel über die bereits beendete (!!!) öffentliche Wahl zur Benennung des Straßentunnels (Kurzform: Bürger sollten über Namen eines Tunnels abstimmen – „Bud-Spencer-Tunnel“ war der SiegerVorschlag – die Stadt Schwäbisch Gmünd hat diesen Vorschlag abgelehnt) -Jamiri 14:23, 28. Jul. 2011 (CEST) Ich hab grundsätzlich nichts dagegen, wenn es irgendwie erwähnt werden wird. Nur es ist immer noch nichts passiert - etabliertes Wissen ist ja vorausgesetzt und das tun wir im Moment nicht außer Tod oder vll. die Zukunft der Erde. Das Echo ist zwar laut, die Welle aber auch nicht wirklich hoch. Ich würde es jetzt nicht reinschreiben wollen und das gemähte Gras wieder wachsen lassen. Die Bud-Spencer-Statue - New York setzt auf den Koloss von Liberty Island (^_^) die Welle wäre wohl um einiges höher deeleres 15:43, 28. Jul. 2011 (CEST)
Wikipedia-Diskussionsseite ansprechen
M. Beißwenger, 26.11.2014
Postings: weder , noch
oder
TEXT
SPOKEN CONV.
Written CMC shares characteristics both with monologic text and spoken conversation: CMC is dialogic interaction in which each communivative move creates/changes the context for follow-up moves. CMC discourse is organized in (and displayed on the screen as) sequences of stretches of written text which may contain internal textual structuring (use of line breaks/paragraphs, lists, varying font face, size, color and weight, embedded media objects etc.). Under aspects of planning and coherence, the similarity with paragraphs in monologic texts and with speeches in performance texts is just a formal, not a functional one: there is no author who planned the entire dialogue in advance; instead, the dialogue is developed by the users as they go along with each posting creating the context for the partners’ next moves. Unlike spoken utterances, the production of people’s contributions to CMC dialogues is text-like: they are first (1) composed by their authors in their entirety, then (2) sent to the server, then (3) displayed on the screen as written messages before (4) they can be read and replied by other interlocutors.
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Postings: weder , noch
oder
TEXT
SPOKEN CONV.
Written CMC shares characteristics both with monologic text and spoken conversation: CMC is dialogic interaction in which each communivative move creates/changes the context for follow-up moves. CMC discourse is organized in (and displayed on the screen as) sequences of stretches of written text which may contain internal textual structuring (use of line breaks/paragraphs, lists, varying font face, size, color and weight, embedded media objects etc.). Under aspects of planning and coherence, the similarity with paragraphs in monologic texts and with speeches in performance texts is just a formal, not a functional one: there is no author who planned the entire dialogue in advance; instead, the dialogue is developed by the users as they go along with each posting creating the context for the partners’ next moves. Unlike spoken utterances, the production of people’s contributions to CMC dialogues is text-like: they are first (1) composed by their authors in their entirety, then (2) sent to the server, then (3) displayed on the screen as written messages before (4) they can be read and replied by other interlocutors.
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Vorschlag für ein neues TEI-Modell Decision: TEI module text strucure as the basis for our schema allows us to describe the inner structure of postings with standard TEI elements for text structure, text design etc.
: a content unit that is being sent to the server “en bloc”. The posting model: o a block of written text which may contain paragraphs and other types of internal textual structuring defined as model.divLike o each posting is assigned an author additional attribute @who from the att.ascribed class which „provides attributes for elements representing speech or action that can be ascribed to a specific individual“. In the TEI standard, att.ascribed cannot occur with
(but, e.g., with from the TEI module transcribed speech). The concept of the element takes into account the hybrid character of written user contributions to CMC dialogues Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
TEI-SIG Computer-Mediated Communication http://www.tei-c.org/Activities/SIG/CMC/
Special SpecialInterest InterestGroup Groupim imRahmen Rahmender derTEI: TEI: seit seit2013: 2013:Erarbeitung Erarbeitungeines einesEntwurfs Entwurfszu zueinem einemTEITEIStandard Standardfür fürdie dieAnnotation Annotationvon vonIBK-Genres IBK-Genres (unter (unterBerücksichtigung Berücksichtigungsowohl sowohlschriftlicher schriftlicherals alsauch auch multimodaler multimodalerGenres): Genres): --IBK-Makrostrukturen IBK-Makrostrukturen --IBK-Mikrostrukturen IBK-Mikrostrukturen --Metadaten Metadaten Beteiligte Beteiligteaus ausKorpusprojekten Korpusprojektenzu zuversch. versch.Sprachen Sprachen (CoMeRe, (CoMeRe,DeRiK, DeRiK,SoNaR, SoNaR,Web2Corpus_it, Web2Corpus_it,Dortmunder Dortmunder Chat-Korpus, Chat-Korpus,Mannheimer MannheimerWikipedia-Korpus, Wikipedia-Korpus,...) ...)
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
IBK-Makro- und -Mikrostrukturen
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Desiderat 2: Linguistische Verarbeitung/Annotation IBK = „untypische Texte“ / „untypische Gespräche“: Verfahren für die automatische linguistische Analyse von Textdaten liefern für IBK unbefriedigende Ergebnisse Forschungsdesiderat: Anpassung von Tagsets und Verfahren/Werkzeugen für die linguistische Annotation Suche über linguistischen Annotationen
Problemaufriss am Beispiel von Experimenten mit NLP-Tools in WebLicht: Bartz et al. (2013)
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Typische Verarbeitungsprobleme a) Segmentierungsprobleme: ergeben sich dadurch, dass auf der Ebene der automatischen Tokenisierung Zeichenfolgen als Tokens konstituiert werden, die beim POS-Tagging nicht sinnvoll weiter analysiert werden können. Gründe: irreguläre Verwendung von Spatien; Nutzung von Interpunktions- und Sonderzeichen für die Bildung von Emoticons und für die Kennzeichnung von Aktionswörtern.
b) Klassifizierungsprobleme: ergeben sich auf der Ebene des POSTagging und bestehen darin, dass bestimmte Tokens, für die im verwendeten POS-Tagsets geeignete Kategorien existieren, aufgrund nicht-standardkonformer Formmerkmale nicht mit dem entsprechenden Tag versehen werden können. Gründe: u.a. Schnellschreibphänomene, Phänomene geschriebener Umgangssprache, IBK-typische Akronyme.
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Typische Verarbeitungsprobleme c) Kategorienprobleme: inkorrekte Zuordnung von POS-Kategorien zu Tokens beruht darauf, dass für die Zielkategorien im Tagset keine Tags vorgesehen sind: u.a. Emoticons, Aktionswörter, Adressierungen, Hashtags, umgangssprachliche kontraktierte Formen (haste, biste, willste, machstes; aufm; isn usw.).
Ein Teil der Verarbeitungsprobleme (a + b) lässt sich entweder über eine Normalisierung der Daten oder über eine Anpassung der Verarbeitungswerkzeuge bearbeiten. Für bestimmte Phänomene müssen neue Kategorien in die Tagsets eingeführt werden, um sie auf der Ebene des POS-Taggings sinnvoll behandeln zu können. Anschließend müssen Verarbeitungsverfahren auf den Umgang mit diesen Kategorien trainiert werden.
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Vorschlag: Erweiterung des STTS für IBK-Korpora
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Vorschlag: Erweiterung des STTS für IBK-Korpora
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Shared Task zur linguistischen Verarbeitung von IBK Community Shared Task zur automatischen linguistischen Annotation von IBK-Daten (2015), initiiert von Mitgliedern des Empirikom-Netzwerks und unterstützt durch die GSCL Fokus: Tokenisierung Part-of-Speech-Annotation Grundlage: Handannotierte Trainingsund Evaluationsdaten (Goldstandard) Ziel: Anpassung automatischer Verfahren an den Umgang mit IBK-Schriftlichkeit (in einem kompetitiven Szenario) Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
Tag
Kategorie
Beispiele
I. Tags für IBK-spezifische Phänomene: EMO ASC
Emoticon, als Zeichenfolge dargestellt (Typ „ASCII“)
EMO IMG
Emoticon, als Grafik-Ikon dargestellt (Typ „Image“)
:-) :-( ^^ O.O
AKW
Aktionswort
*lach*, freu, grübel, *lol*
HST
Hashtag
Kreta war super! #urlaub
ADR
Adressierung
@lothar: Wie isset so?
URL
Uniform Resource Locator
http://www.tu-dortmund.de
EML
E-Mail-Adresse
[email protected]
II. Tags für Phänomene der konzeptionellen Mündlichkeit: VV PPER APPR ART VM PPER
Tags für die häufigsten Bildungsmuster kontraktierter Formen (APPRART ist in STTS bereits vorhanden)
schreibste, machste vorm, überm, fürn willste, darfste, musste
VA PPER
haste, biste, isses
KOUS PPER
wenns, weils, obse
PPER PPER
ichs, dus, ers
ADV ART
son, sone
PTK IFG
Intensitäts-, Fokus- oder Gradpartikel
sehr schön, höchst eigenartig, nur sie, voll geil
PTK MA
Modal- oder Abtönungspartikel
Das ist ja / vielleicht doof. Ist das denn richtig so? Das war halt echt nicht einfach.
DM
Diskursmarker
prototypisch: weil, obwohl, nur, also als Einheiten mit projektivem Potenzial im Vorvorfeld von V2-Sätzen
ONO
Onomatopoetikon
boing, miau, zisch
STTS-Tagset mit Erweiterungen für IBK und für gesprochene Sprache (Beißwenger, Bartz, Storrer, Westpfahl; forthc.) M. Beißwenger, 26.11.2014
Shared Task zur linguistischen Verarbeitung von IBK Two data sets: “CMC data set”: data from several CMC genres (chat, Wikipedia discussions, blog comments, tweets, forums/social networks) (all data CC-licensed or donated) responsible for building & annotating the CMC data set: Michael Beißwenger (Dortmund), Kay-Michael Würzner (Berlin)
“web corpora datas set”: main focus on monologic www pages but with a small portion of CMC included (forum threads, blog comments, ...) – representing the heterogeneous character of web corpora that have been automatically crawled from the web (all data CC-licensed) responsible for building & annotating the CMC data set: Sabine Bartsch (Darmstadt), Stefan Evert (Erlangen)
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Shared Task zur linguistischen Verarbeitung von IBK
Guidelines will be made available together with the trial data / full task. Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Shared Task zur linguistischen Verarbeitung von IBK April 2015 minus X: Release of trial data (manually tagged) and tagset / guidelines April 2015: Release of full task: - description of task - complete data sets + training data June 15-28, 2015: evaluation period September 2015: presentation & discussion of results in a workshop @ GSCL conference 2015 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Aufbau und Annotation von IBK-Korpora: Perspektiven design and evaluate annotation schemas categories of analysis for linguistic phenomena; CMC research
evaluate and adapt tools / tagsets
tools for automatic linguistic analysis
Text Technology
Linguistics
Building and annotating CMC corpora
Natural Language Processing
represent corpora
Corpus Linguistics
add and store annotations to corpus data Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
standards for the annotation of linguistic data structures; metadata
methods and technologies for corpus collection and maintenance
Beißwenger (in prep.) M. Beißwenger, 26.11.2014
GSCL-Arbeitskreis „Social Media / IBK“ http://gscl.org/ak-ibk.html
Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Literatur Bartz, Thomas; Beißwenger, Michael; Storrer, Angelika (2013): Optimierung des Stuttgart-TübingenTagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge. In: Journal for Language Technology and Computational Linguistics 28 (1), 157-198. http://www.jlcl.org/2013_Heft1/7Bartz.pdf Beißwenger, Michael (2013): Das Dortmunder Chat-Korpus. In: Zeitschrift für germanistische Linguistik 41/1, 161-164. Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2013): DeRiK: A German Reference Corpus of Computer-Mediated Communication. In: Literary and Linguistic Computing (DOI: 10.1093/llc/fqt038). Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2012): A TEI Schema for the Representation of Computer-mediated Communication. In: Journal of the Text Encoding Initiative (jTEI), Issue 3, November 2012 (DOI: 10.4000/jtei.476). Online: http://jtei.revues.org/476 Beißwenger, Michael; Lemnitzer, Lothar (2013): Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS). In: Journal for Language Technology and Computational Linguistics 26 (2) (Themenheft „Webkorpora in Computerlinguistik und Sprachforschung“, hrsg. v. Alexander Mehler, Roman Schneider & Angelika Storrer), 1-22. http://www.jlcl.org/2013_Heft2/1BeiLem.pdf Angelika Storrer (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze – empirische Befunde. In: Sprachverfall? Dynamik – Wandel – Variation. Jahrbuch des Instituts für Deutsche Sprache 2013. Sutter, Tilmann; Mehler, Alexander (Hrsg., 2010): Medienwandel als Wandel von Interaktionsformen. Wiesbaden: Verlag für Sozialwissenschaften. Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014
Herzlichen Dank für Ihre Aufmerksamkeit!
Michael Beißwenger
26. 11. 2014 Repräsentation und linguistische Annotation von Korpora internetbasierter Kommunikation
M. Beißwenger, 26.11.2014