Twitter Event Detection Alexander Bobach, Bogdan Paliukh, 18.01.2012
Inhalt 1. Worum geht es? 2. API 3. Ortsbestimmung 4. Nachrichten klassifizieren
Worum geht es? ● ● ● ●
Twitter = Microblogging mit 140 Zeichen 200 Mio. Nutzer weltweit mobile Zugangsmöglichkeiten Tweets stark angereichert mit Metadaten
Worum geht es? ● Privatmenschen, Prominente und Organisationen twittern... ● Nutzer erzählen, was sie gerade erleben -> nur kurze Verzögerung zwischen Erlebnis und Erzählen ● es wird über alle Aspekte des Lebens berichtet (und über besondere Events)
Anwendungsbeispiele ● ● ● ● ●
CDE = Crime and Disaster Events Erdbebendetektion Heuschnupfen Trendvorhersage ...
API zwei APIs: ● Stream API ○ "Live Ticker" - kein Zugriff auf alte Tweets ○ man bekommt 1% aller Tweets (zufällig ausgewählt) - auf Anfrage auch mehr ○ einfache Filter (z.B. Keywords, Location,..) ○ keinen Zugriff auf alte Tweets
API ● Search API ○ Zugriff auf bisher erschienene Tweets (mit Zeitbeschränkung, abh. von Workload) ○ differenzierte Filterfunktion ○ Anzahl Querys/Stunde beschränkt
Ortsbestimmung ● Geo-Tag ● Informationen im Profil ● Mit Hilfe früherer Tweets des Benutzers bzw. Freunden des Benutzers ○ Annahmen ■ eigener Standort des Benutzers taucht in Tweets häufiger auf als andere Standorte ■ Freunde des Benutzers tendenziell näher beim Benutzer ■ Standort des Benutzers wird mindestens einmal in seinen Tweets oder denen eines Freundes erwähnt
Wie entdeckt man Events? ● Trends -> Twitter API: GET trends/:woeid ● Anstieg der Tweets an einem Ort (über eine gewisse Zeit) ● vorgegebene Keywords ● gelernte Keywords ● Häufigkeit von Wörtern beobachten ○ Frequenzy ○ IF-IDF ○ Entropie
Neue Keywords lernen ● Annahme: neue Keywords treten in Verbindung mit alten Keywords auf ○ Beginne mit Startmenge von Keywords ○ Alle unigrams und bigrams aus damit gefundenen Tweets sind Keyword-Kandidaten ○ Kandidaten werden je nach Confidence als neue Regeln aufgenommen oder verworfen ○ Neue Regeln werden bei geringer Accuracy wieder entfernt
Klassifikation Meint ein Tweet mit den richtigen Keywords auch das richtige Thema? ● Problematisch: ○ sehr kurze Texte (140 Zeichen) ○ hohes Rauschen (Rechtschreibfehler)
● zusätzliche Informationen ○ Twitter-spezifische Features (Links, #Hashtag, @Antwort, rt Retweet) ○ Event-spezifische Features (sich wiederholende Orte, Zeiten, Zahlen,...)
● Space Vector Model zur Klassifikation
Quellen ●
R. Li, K. H. Lei, R. Khadiwala, K. C.-C. Chang: "TEDAS: A Twitter-Based Event Detection And Analysis System", in Proceedings of 28th International Conference on Data Engineering (ICDE), IEEE, 2012, S. 1273-1276
●
T. Takahashi, S. Abe, N. Igata: "Can Twitter Be An Alternative Of RealWorld Sensors?", in Human-Computer Interaction, Volume 6763, Part III, Springer-Verlag, Berlin, Heidelberg, 2011, S. 240-249
●
T. Sakaki, M. Okazaki, Y. Matsuo: "Earthquake Shakes Twitter Users: Real-Time Event Detection By Social Sensors", In Proceedings of the 19th international conference on World Wide Web (WWW), ACM, New York, NY, USA, 2010, S. 851-860
●
J. Benhardus: "Streaming Trend Detection in Twitter", UCCS REU For Artificial Intelligence, Natural Language Processing And Information Retrieval Final Report, 2012