Twitter Event Detection

18.01.2012 - Geo-Tag. ○ Informationen im Profil. ○ Mit Hilfe früherer Tweets des Benutzers bzw. Freunden des Benutzers. ○ Annahmen. □ eigener ...
112KB Größe 4 Downloads 497 Ansichten
Twitter Event Detection Alexander Bobach, Bogdan Paliukh, 18.01.2012

Inhalt 1. Worum geht es? 2. API 3. Ortsbestimmung 4. Nachrichten klassifizieren

Worum geht es? ● ● ● ●

Twitter = Microblogging mit 140 Zeichen 200 Mio. Nutzer weltweit mobile Zugangsmöglichkeiten Tweets stark angereichert mit Metadaten

Worum geht es? ● Privatmenschen, Prominente und Organisationen twittern... ● Nutzer erzählen, was sie gerade erleben -> nur kurze Verzögerung zwischen Erlebnis und Erzählen ● es wird über alle Aspekte des Lebens berichtet (und über besondere Events)

Anwendungsbeispiele ● ● ● ● ●

CDE = Crime and Disaster Events Erdbebendetektion Heuschnupfen Trendvorhersage ...

API zwei APIs: ● Stream API ○ "Live Ticker" - kein Zugriff auf alte Tweets ○ man bekommt 1% aller Tweets (zufällig ausgewählt) - auf Anfrage auch mehr ○ einfache Filter (z.B. Keywords, Location,..) ○ keinen Zugriff auf alte Tweets

API ● Search API ○ Zugriff auf bisher erschienene Tweets (mit Zeitbeschränkung, abh. von Workload) ○ differenzierte Filterfunktion ○ Anzahl Querys/Stunde beschränkt

Ortsbestimmung ● Geo-Tag ● Informationen im Profil ● Mit Hilfe früherer Tweets des Benutzers bzw. Freunden des Benutzers ○ Annahmen ■ eigener Standort des Benutzers taucht in Tweets häufiger auf als andere Standorte ■ Freunde des Benutzers tendenziell näher beim Benutzer ■ Standort des Benutzers wird mindestens einmal in seinen Tweets oder denen eines Freundes erwähnt

Wie entdeckt man Events? ● Trends -> Twitter API: GET trends/:woeid ● Anstieg der Tweets an einem Ort (über eine gewisse Zeit) ● vorgegebene Keywords ● gelernte Keywords ● Häufigkeit von Wörtern beobachten ○ Frequenzy ○ IF-IDF ○ Entropie

Neue Keywords lernen ● Annahme: neue Keywords treten in Verbindung mit alten Keywords auf ○ Beginne mit Startmenge von Keywords ○ Alle unigrams und bigrams aus damit gefundenen Tweets sind Keyword-Kandidaten ○ Kandidaten werden je nach Confidence als neue Regeln aufgenommen oder verworfen ○ Neue Regeln werden bei geringer Accuracy wieder entfernt

Klassifikation Meint ein Tweet mit den richtigen Keywords auch das richtige Thema? ● Problematisch: ○ sehr kurze Texte (140 Zeichen) ○ hohes Rauschen (Rechtschreibfehler)

● zusätzliche Informationen ○ Twitter-spezifische Features (Links, #Hashtag, @Antwort, rt Retweet) ○ Event-spezifische Features (sich wiederholende Orte, Zeiten, Zahlen,...)

● Space Vector Model zur Klassifikation

Quellen ●

R. Li, K. H. Lei, R. Khadiwala, K. C.-C. Chang: "TEDAS: A Twitter-Based Event Detection And Analysis System", in Proceedings of 28th International Conference on Data Engineering (ICDE), IEEE, 2012, S. 1273-1276



T. Takahashi, S. Abe, N. Igata: "Can Twitter Be An Alternative Of RealWorld Sensors?", in Human-Computer Interaction, Volume 6763, Part III, Springer-Verlag, Berlin, Heidelberg, 2011, S. 240-249



T. Sakaki, M. Okazaki, Y. Matsuo: "Earthquake Shakes Twitter Users: Real-Time Event Detection By Social Sensors", In Proceedings of the 19th international conference on World Wide Web (WWW), ACM, New York, NY, USA, 2010, S. 851-860



J. Benhardus: "Streaming Trend Detection in Twitter", UCCS REU For Artificial Intelligence, Natural Language Processing And Information Retrieval Final Report, 2012