Zuordnen von linguistischen Ausdrücken zu Motiven in Zeitreihen

getroffen werden, da zwar kaum eine lange Zeitreihe nor- malverteilt .... w Zeitpunkte lang sind. ..... [10] Jessica Lin, Eamonn J. Keogh, and Stefano Lonardi.
285KB Größe 5 Downloads 55 Ansichten
Zuordnen von linguistischen Ausdrücken zu Motiven in Zeitreihen Matching of Labeled Terms to Time Series Motifs Christian Moewes und Rudolf Kruse

In diesem Aufsatz geht es um die Problematik, von Experten entworfene Versuche realen Beobachtungen anzunähern. Dazu wird dieses Problem in zwei kleinere Teilprobleme zerlegt: 1.) die Suche von wiederkehrenden Mustern in temporalen Sequenzen, sogenannten Motiven, die es gilt sowohl in den Versuchen als auch in der Realität zu entdecken, und 2.) das Zuordnen der Motive zu linguistischen Ausdrücken, die als Domänenwissen eventuell vorhanden sind. Dabei wird eine effektive Repräsentation von Zeitreihen beschrieben, welche die Suche nach diesen Motiven enorm beschleunigt. Einige Ansätze werden dargestellt, um mit den gefundenen Motiven die entworfenen Versuche zu korrigieren. In this paper we devote ourselves to the difficulty of fitting human designed experiments to real-world cases. We decompose this problem into two smaller subproblems: 1.) The search of recurrent patterns in temporal sequences, so called motifs that are deemed to be discovered in both the experiments and the real observations and 2.) the matching of motifs to linguistic terms which are possibly available as domain knowledge. Therefore we describe an effective time series representation that enormously speeds up the search for these motifs. We present some approaches to adjust the designed experiments with the help of the discovered motifs. Schlagwörter: Multivariate Zeitreihenanalyse, Motiventdeckung, Markierung, Gewinnung häufiger Muster Keywords: Multivariate time series analysis, motif discovery, labeling, frequent pattern mining

1 Einleitung Das Durchführen von Feldversuchen bei komplexen Systemen, um deren Betrieb zu bewerten, ist für gewöhnlich kostspielig und sehr zeitaufwendig. Ein Ziel dabei ist es, die geplanten Versuche für die zu testenden Systeme so zu entwerfen, dass sie dem Verhalten der in Serie produzierten Systeme in der Realität sehr ähnlich sind. Basierend auf diesen Versuchen, die Kriterien wie z. B. Lebensdauer, Fehler und Belastungen quantitativ beschreiben, kann die Qualität eines Systems verbessert werden. Beispielsweise können Fehlerquellen gefunden und in der nächsten Generation von Systemen abgestellt werden. Um diese Kriterien zu bewerten werden über größere Zeiträume Sensordaten nicht nur von Testobjekten, sondern auch von Systemen in der Realität aufgezeichnet.

146

Bestehende Datenanalysemethoden basieren auf eindimensionalen Lastkollektiven, die für Vergleiche von Versuchen und Realität benutzt werden. Diese Verfahren sind vollständig zeitunabhängig. Jedoch kann das Verhalten eines realen Systems über die Zeit betrachtet verschiedene Abläufe enthalten, die in bisherigen Versuchen nicht berücksichtigt wurden. Des Weiteren mögen bestehende Versuche Abläufe enthalten, die der Wirklichkeit überhaupt nicht entsprechen. Methoden des ,,Data Mining“1 , welche die Zeit als zusätzliche Variable mit berücksichtigen, werden ansatzweise in Abschnitt 2 besprochen. Basierend auf diesen Zeitreihenanalysemethoden können interessante, wiederkehrende 1

Der englische Begriff ,,Data Mining“ beschreibt anschaulich das Schürfen in riesigen Datenbeständen nach sinnvollen Informationen.

at – Automatisierungstechnik 57 (2009) 3 / DOI 10.1524/auto.2009.0760 © Oldenbourg Wissenschaftsverlag

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

METHODEN

at 3/2009

Muster (sogenannte Motive) entdeckt werden. Ein sehr effektiver Algorithmus zum Finden von solchen Motiven wird in Abschnitt 3 beschrieben. Eine Aufgabe im Anschluss wäre dann, die in den Versuchen gefundenen Motive den Testkriterien zuzuordnen. Jede Versuchszeitreihe, die ein Motiv enthält, kann nach einem Kriterium benannt werden, falls der betreffende Versuch sorgfältig entworfen wurde. Somit kann ein Motiv und sein ihm zugeordnetes Kriterium als Antezedens bzw. Konsequenz einer Regel angesehen werden. Wie mithilfe von Expertenwissen Motive benannt werden können, wird im Abschnitt 4 erklärt. Es wird versucht mit einer Menge an identifizierten Regeln aus allen Experimenten einige dieser Regeln in den Realdaten wiederzufinden. Folglich können neue, bisher unbekannte Zeitreihen mit denen der Versuche verglichen und deren Kriterien zugeordnet werden. Dieser Teil der Arbeit wird in Abschnitt 5 näher beschrieben. Schlussendlich ist es möglich, die Versuche wie folgt an die realen Beobachtungen anzupassen. Können die Motive einer ungesehenen Zeitreihe beispielsweise in keinem Versuch wiedergefunden werden, sollten diese so angepasst werden, dass nahezu jedes neue Motiv wenigstens einmal vorkommt. Motive, die nur in den Versuchs- und nicht in den Realdaten vorkommen, sollten von den Versuchen entfernt werden, weil sie nicht relevant zu sein scheinen. In Abschnitt 6 werden weitere Details zu diesem Verfahren erläutert. Abschnitt 7 fasst diese Arbeit abschließend zusammen und gibt einen Ausblick auf offene Fragen und Probleme.

2 Data Mining in Zeitreihen In Forschung und Entwicklung hat ,,Data Mining“ in Zeitreihen in den letzten Jahren an unglaublich großer Beachtung gewonnen. Zeitreihen sind in Bereichen wie Finanzen, Medizin, Biometrie, Chemie, Astronomie, Robotik, Netzwerke und in der Industrie mittlerweile allgegenwärtig. Sogenannte Zeitreihendatenbanken speichern zu jedem erfassten Datensatz auch einen Zeitstempel. Eine Zeitreihe kann beliebig lang sein und unter Umständen mehrere Dimensionen (Attribute, Kanäle, Sensoren) umfassen. Somit handelt es sich dann nicht mehr um eine uni- sondern um eine multivariate Zeitreihe. Eine große Herausforderung ist das Hervorbringen von nützlichen Informationen aus Zeitreihen. Mittlerweile kann zwischen folgenden ,,Data Mining“-Problemen in Zeitreihen unterschieden werden: Gruppierung (engl. ,,Clustering“) [12], Klassifizierung [20], Entdeckung von Motiven [16] und Regeln [6], Visualisierung und Erkennung von Anomalien [10]. Wegen der großen Fülle an Daten reduzieren sich viele der genannten Probleme häufig auf das Finden von wiederkehrenden, sich (einander) ähnelnden Teilsequenzen. Um diese Teilsequenzen zu finden, muss ein Ähnlichkeitsmaß festgelegt werden, das einzelne Teilsequenzen miteinander

at 3/2009

vergleicht. In den meisten Veröffentlichungen wird der Euklidische Abstand   w  (1) d(Q, C) =  (qi − ci )2 i=1

zwischen zwei standardnormalverteilten Teilsequenzen Q = (q1 , . . . , qw )T und C = (c1 , . . . , cw )T der Länge w als Basis für das Ähnlichkeitsmaß genommen. Für gewöhnlich müssen sehr viele Vergleiche vorgenommen werden und die Kapazität eines schnellen Arbeitsspeichers ist meist zu klein um alle Daten zu laden.

2.1 Speicherplatzeffiziente Repräsentationen Aufgrund der vielen, langsamen Zugriffe auf die Originaldaten sollte eine Annäherung der Zeitreihen erstellt werden, die sowohl in den Arbeitsspeicher eines Rechners passt als auch die wesentlichen und interessanten Eigenschaften erhält. Es gibt extrem viele verschiedene Arten unterschiedlichster Näherungsverfahren von Zeitreihen, z. B. diskrete Fourier-Transformation (DFT), diskrete Wavelet-Transformation (DWT), stückweise lineare (PAA) und stückweise konstante Modelle (APCA), Singulärwertzerlegung (SVD), symbolische Repräsentationen. Letztere haben den Vorteil, dass Algorithmen der Textverarbeitung und der Bioinformatik verwendet werden können, wie z. B. Streuspeicherverfahren (engl. ,,Hashing“), MarkovModelle, Suffixbäume etc. In der aktuellen Forschung setzt sich derzeit besonders die symbolische Repräsentation von Lin und Keogh [11] durch. Ihre symbolische Aggregat-Approximation (kurz SAX genannt) erstellt aus jeder univariaten Zeitreihe ein Wort definierter Länge n über ein gewähltes Alphabet A mit |A| = a. Der Algorithmus dafür ist relativ simpel. Zunächst wird die Teilsequenz in n gleichgroße Intervalle eingeteilt. Von jedem Intervall wird dessen Mittelwert als Repräsentant gebildet. Dazu werden die Elemente der Teilsequenz C = (c1 , . . . , cw )T abgebildet auf eine Sequenz C¯ = (¯c1 , . . . , c¯ n ) mit folgender Formel [9]: w

n c¯ i = w

ni 

cj

j= w n (i−1)+1

Diese Methode wird auch als stückweise (engl. ,,piecewise“) aggregierte Approximation (PAA) bezeichnet. Nachdem die Teilsequenz in eine wesentlich kürzere Sequenz zusammengefasst wurde, wird letztere nun diskretisiert. Dabei wird jeder der Mittelwerte c¯ i der PAASequenz C¯ auf einen der a Buchstaben abgebildet, sodass das Auftreten jedes Buchstabens gleich wahrscheinlich ist. Das wird erreicht, indem der Wertebereich der PAASequenz als normalverteilt angenommen und die Verteilung in a gleichgroße Teile aufteilt wird. Diese Annahme kann getroffen werden, da zwar kaum eine lange Zeitreihe normalverteilt, jedoch deren Teilsequenzen nahezu normalverteilt sind [11].

147

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

C. Moewes, R. Kruse: Zuordnen von linguistischen Ausdrücken zu Motiven in Zeitreihen

METHODEN

Während andere symbolische Repräsentationen ebenfalls ein Wort aus einer Zeitreihe generieren, ist SAX doch einzigartig im Vergleich. Es komprimiert nämlich nicht nur Sequenzen, sondern erlaubt auch einen Abstand d ∗ (Q, C) zwischen zwei SAX-Worten zu messen, der eine untere Schranke des Euklidischen Abstandes d(Q, C) der Originalsequenzen Q und C darstellt, also d ∗ (Q, C) ≤ d(Q, C) . Wird die Ähnlichkeit mittels Euklidischem Abstand bestimmt, so bedeutet eine untere Schranke demnach Folgendes. Sollten zwei SAX-Worte zueinander unähnlich sein, so sind deren ursprüngliche Teilsequenzen ebenfalls zueinander unähnlich. Infolgedessen produzieren Algorithmen, die mit SAX arbeiten, identische Resultate verglichen mit Algorithmen, die auf den Originaldaten arbeiten. Lediglich ähnliche SAX-Worte sollten noch einmal im Originalraum miteinander verglichen werden. Dies sind jedoch meist nur wenige Zugriffe auf die Originaldaten, weil die meisten der Vergleiche auf unähnlichen Teilsequenzen beruhen. Schließlich kann man sich darauf konzentrieren, wie ähnliche Teilsequenzen effizient zu finden sind. Im Folgenden wird davon ausgegangen, dass SAX als Zeitreihenrepräsentation gewählt wurde, da die kommenden Algorithmen auf Streuspeicherverfahren basieren.

3 Entdecken von Motiven Sind sich wiederholende und zueinander ähnliche Sequenzen auffindbar, dann sind Probleme, wie Clustern oder Klassifikation von Zeitreihen, leicht zu lösen. Diese ähnlichen Sequenzen werden nach der Begriffswelt der Bioinformatik Motive genannt. Das rührt daher, dass Motive dort sich wiederholenden Zeichenketten (meist von einer DNS) entsprechen und SAX als Repräsentation auf Worten basiert. Der Vollständigkeit halber sei an dieser Stelle erwähnt, dass es auch modellbasierte Cluster-Algorithmen für Zeitreihen gibt, die versuchen ein expressives Modell für die Motive einer Zeitreihe zu geben. Das Clustern basiert direkt auf den Modellparametern und nicht mehr auf den Daten. Auch zwischen Modellen lassen sich Abstands- oder Ähnlichkeitsmaße definieren, die wiederum zum Gruppieren genutzt werden können. Besonders herausragend aus der Masse an wissenschaftlichen Ansätzen ist das HiddenMarkov-Modell (HMM) [18], welches in der Lage ist Teilsequenzen aus Zeitreihen zu lernen [1]. Im Aufsatz von Chiu et al. [3] wird SAX zum ersten Mal in Verbindung mit dem Entdecken von Motiven in univariaten Zeitreihen gebracht. Um sämtliche Motive einer Zeitreihe der Länge l zu finden, wird jene mittels eines sich Stück für Stück verschiebenden Fensters bestimmter Breite w in (l − w + 1) Teilsequenzen zerlegt. Jede Sequenz wird in ein SAX-Wort transformiert und in eine Zeilenmatrix abgespeichert, die SAX-Matrix genannt wird und n Spalten und (l − w + 1) Zeilen hat.

148

Mithilfe der Zufallsprojektion von Buhler und Tompa [2] werden dann Positionen von möglichen Motiven erraten. Dies geschieht durch paarweise Vergleiche der SAX-Worte. Darum wird zunächst für jeden der (l − w + 1)2 Vergleiche ein Feld in einer Kollisionsmatrix M, die als Hash-Tabelle effizient implementiert wird, vorgesehen. Am Anfang seien sämtliche Einträge M(i, j) = 0 für 1 ≤ i, j ≤ l − w + 1. Obwohl für gewöhnlich n  w, bietet es sich dennoch nicht an, die in der SAX-Matrix gespeicherten Worte Zeichen für Zeichen miteinander zu vergleichen. Vielmehr war die Idee von Buhler und Tompa, dass es sogenannte Gleichgültigkeitssymbole (engl. ,,don’t care symbols“) gibt, von denen es nicht bekannt ist, in welchen Teilen der Worte sie sich befinden. Dies entspräche etwa einem verrauschten Motiv oder der Streckung bzw. der Stauchung einer Zeitreihensequenz. Folglich wird die SAX-Matrix auf 1 ≤ k < n zufällig ausgewählte Spalten projiziert. Danach werden alle Zeilen der projizierten Matrix miteinander verglichen. Gleichen sich zwei projizierte SAX-Worte in den Zeilen i und j, so wird der Wert in M(i, j) um Eins erhöht. Das Projizieren wird t mal wiederholt, weil vermutet werden kann, dass einige der versteckten Motive sich nach t Iterationen wahrscheinlich zusammen einen Eintrag in M teilen werden. Zusätzlich ist es unwahrscheinlich, dass viele zufällige Sequenzen zusammen mit einem bereits gefundenen Motiv kollidieren werden. Dafür müssten sie dem Motiv in allen k Positionen gleichen. Weil der Algorithmus nicht wissen kann, welcher Kollisionseintrag in M ein Motiv ist oder nicht, muss der Nutzer einen Schwellwert 1 ≤ s ≤ k angeben. Alle M(i, j) ≥ s wären demnach Kandidaten für Motive. Bei Zeitreihen kommt allerdings erschwerend hinzu, dass es in der unmittelbaren Nachbarschaft der i-ten Sequenz ähnliche Vorkommen derselben Sequenz gibt. Solche Sequenzen, auch triviale Übereinstimmungen [3] genannt, werden abschließend heuristisch aus der Menge an vermuteten Motiven gestrichen. Obwohl vergleichsweise viele Parameter bestimmt werden müssen (n, a, w, k, t und s), ist die Zufallsprojektion relativ robust gegenüber leichten Änderungen sowohl von beiden SAX-Parametern n und a als auch der Projektionsgröße k [3]. In den gemachten Versuchen wurden die Anzahl der Intervalle auf n = w/20 und die Alphabetgröße auf a = 4 gesetzt. Auch die Anzahl der Projektionen kann mit t ≥ 20 groß genug gewählt werden, um Kollisionen zu erzeugen. Jedoch stellt sich im Allgemeinen die Frage, an wie vielen und vor allem an welchen Motiven Interesse besteht. Sind w und s zu groß gewählt, so mögen viele ,,kurze“ Motive nicht gefunden werden. Sind andererseits w und s zu klein gewählt, dann werden stets viele zufällige Übereinstimmungen gefunden, die keinem wirklichen Motiv entsprechen. Die Wahl dieser zwei Parameter sollte deswegen vorsichtig getroffen werden und auf Expertenwissen beruhen. Standardmäßig ist der Schwellwert auf s = 0,75 · t gesetzt, was einem starken Filtern der Motive gleichkommt.

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

at 3/2009

Eine Alternative zum Schwellwert s besteht sicherlich in der folgenden Heuristik. Zuerst werden alle M(i, j) absteigend sortiert. Aus der geordneten Anzahl der Kollisionen M(i, j) lässt sich dann eine kumulative Verteilung erstellen, die abschließend die Wahl der Elemente als relevante Motivpaare erleichtert. Diese Verteilung muss auf [0, 1] normiert werden, sodass die Summe aller Klassen 1 ergibt. Dann könnte der Schwellwert s ∈ [0, 1] den unteren Anteil der Verteilung, die als irrelevant angesehen werden kann, repräsentieren. Im Übrigen haben Yankov et al. [21] den Projektionsalgorithmus für Zeitreihen erweitert auf ein Nicht-Euklidisches Abstandsmaß, die uniforme Skalierung. Mit dieser Methode können auch Motive gefunden werden, die nicht exakt w Zeitpunkte lang sind. Allerdings ist auch dieser Ansatz beschränkt, sodass w von der jeweiligen Applikation abhängt.

3.1 Subdimensionale Motive Die Zufallsprojektion für Motive in Zeitreihen [3], die auf SAX basiert, war ursprünglich nur für eindimensionale Datensätze konzipiert. Sind multivariate Zeitreihen gegeben, so gibt es mehrere Wege dieses Problem anzugehen. Die einfachste Idee besteht darin, den p-dimensionalen Raum auf einen eindimensionalen abzubilden und dann die Zufallsprojektion anzuwenden. Beispielsweise haben Tanaka et al. [19] die Eingabedimensionen mittels Hauptkomponentenanalyse2 auf die lediglich erste Hauptkomponente herunter transformiert. Abschließend konnte das Verfahren von Chiu et al. [3] auf die neuen univariaten Zeitreihen angewendet werden. Ein erster Ansatz von Minnen et al. [14] basiert auf der Idee, dass von p Dimensionen auch p SAX-Worte generiert werden. Diese SAX-Worte werden dann miteinander verkettet und wie die SAX-Repräsentation einer langen univariaten Zeitreihe behandelt. Deswegen ist es auch hier möglich, die Methode von Chiu et al. [3] einzusetzen. Es muss jedoch beachtet werden, dass durch beide Ansätze nur Motive gefunden werden können, die sich auch über alle Dimensionen erstrecken. Dies ist vor allem dann problematisch, wenn a priori nicht bekannt ist, in welchen der vielen Dimensionen Motive beobachten werden können. In der Praxis kann es außerdem vorkommen, dass in einer Zeitreihe sich Attribute eines Motivs durchaus von denen eines anderen unterscheiden können. Solche Motive, die in multivariaten Zeitreihen nicht alle Dimensionen überspannen, werden als subdimensional bezeichnet. Im Detail wird eine multivariate Sequenz als w × p-Matrix gekennzeichnet, die für jedes der p Attribute w reelle Werte abspeichert. Der Abstand dmult zweier multivariater Sequen2

Diese Transformation des Eingaberaums auf die am meisten informationstragenden Linearkombinationen der Ursprungsdimensionen ist auch unter der englischen Entsprechung ,,Principal Component Analysis“ (PCA) bekannt.

at 3/2009

zen Q = [Q 1 , . . . , Q p ] und C = [C1 , . . . , C p ] sei definiert durch die Euklidische Norm    p dmult (Q, C) = ||d||2 =  |d j | (2) j=1

wobei d j ≡ d(Q j , C j ) dem Euklidischen Abstand (1) zwischen Q j und C j und d = (d1 , . . . , d p ) entsprechen. In der Literatur lässt sich bisher lediglich ein Ansatz finden, der versucht subdimensionale Motive zu finden. Minnen et al. [13] verbessern ihre ursprüngliche Idee, die SAXWorte zu verketten. Sie inkrementieren pro Attribut die Kollisionsmatrix M an entsprechender Stelle für jedes projiziertes SAX-Wort, das zu einem anderen passt. Im Anschluss daran werden alle Elemente von M, die größer sind als s, ausgelesen und näher untersucht, da von jedem Sequenzpaar zwar zwei Positionen, jedoch nicht die relevanten Dimensionen der potentiellen Motive bekannt sind. Es existiert auch noch keine Zuordnung der Sequenzpaare zu möglichen Motiven. Bevor die Zuordnung vorgenommen werden kann, wird die eventuelle Subdimensionalität der Sequenzen durch folgende naive Idee erzeugt. Für jedes Paar von Sequenzen, werden alle Abstände d1 , . . . , d p aufsteigend geordnet. Dann wird dieser Reihenfolge nach, Abstand für Abstand solange aufsummiert, bis ein bestimmter Schwellwert rmax überschritten wird. Die Attribute der kleinsten Abstände entsprechen demnach den relevanten Subdimensionen des Sequenzpaares. Diese Heuristik kann auch verfeinert werden, indem nicht die Attribute der kleinsten Abstände, sondern nur wahrscheinlich relevante Attribute zur Berechnung des Abstandes herangeführt werden [13]. Dafür wird zuerst eine Verteilung P(d j ) über die Abstände zwischen einigen nichttrivialen Übereinstimmungen für jede Dimension 1 ≤ j ≤ p durch das Ziehen einer Zufallsstichprobe geschätzt. Anschließend werden die Abstände d1∗ , . . . , d ∗p für jeden Eintrag M(i, j) ≥ s bestimmt. Sollte der Wert der kumulative Verteilungsfunktion P(d j ≤ d j∗ ) kleiner sein als die vom Nutzer bestimmte Dimensionsrelevanz rrel , so sei die j-te Dimension relevant. Sind sämtliche Paare von subdimensionalen Sequenzen ermittelt, so müssen auch, wie bei der univariaten Version der Motiventdeckung, die trivialen Übereinstimmungen eliminiert werden. Mit diesem Ansatz wird es Motiven ermöglicht, nicht alle Dimensionen überspannen zu müssen. Das bringt klare Vorteile gegenüber [14; 19], wenn sich in der Menge an Attributen beispielsweise stark verrauschte oder nicht informative Dimensionen befinden. Der Nachteil bei der Methode zur Entdeckung subdimensionaler Motive ist der Schwellwertparameter rmax bzw. rrel . Beide sind erheblich abhängig von der Sequenzlänge w. Sollte domänenspezifisches Wissen vorhanden seien, so bietet es sich an, rmax als Schwellwert zu wählen. Ansonsten muss die Verteilung P(d) geschätzt und mit rrel hantiert werden.

149

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

C. Moewes, R. Kruse: Zuordnen von linguistischen Ausdrücken zu Motiven in Zeitreihen

METHODEN

3.2 Ein Anwendungsbeispiel In einer Anwendung konnte ein Experte p = 9 von insgesamt 130 Messkanälen seiner Experimente als für sich wichtig identifizieren. Weiterhin war bekannt, dass ein

Motiv mindestens w = 400 ms dauert. Insgesamt waren 10 Zeitreihen gegeben, die der Suche nach subdimensionalen Motiven unterworfen wurden. Analysen brachten eine Vielzahl an Mustern in den einzelnen Zeitreihen zum Vorschein, die jeweils mindestens zweimal pro Zeitreihe gefunden wurden. Per Definition liefert der Algorithmus die Anfangsposition eines Motivs, egal aus wieviel Attributen eine Zeitreihe auch bestehen mag. Lediglich das Finden der Subdimensionen ist hier ein Problem, da vom Experten keinerlei Informationen weder über rmax noch rrel erhältlich sind. Somit wurde folgender Ansatz zum Finden relevanter Subdimensionen verfolgt: Der Parameter rrel wird mit 0.1 initialisiert und solange um 0.1 erhöht bis P(d j ≤ d j∗ ) < rrel für mindestens eine der Dimensionen 1 ≤ j ≤ p gilt. Diese Heuristik terminierte meist schon nach zwei oder drei Schritten. Eines der gefundenen Muster aus der Zeitreihe namens DO0_0036.csv ist in Bild 1 dargestellt. Die 5 relevanten aller p = 9 Dimensionen sind aufgezeigt. Die Zeitreihe selbst enthält über 10 000 Messpunkte bei einer Abtastrate von 1 Hz und ist somit fast 3 Stunden lang. Die dargestellten Teilsequenzen beginnen am 388. bzw. 2543. Messpunkt. Offensichtlich handelt es sich um ein Motiv, das als Muster zweimal in dieser Zeitreihe gefunden wurde. Dieses gilt es nun in Relation zu bringen mit Motiven anderer Zeitreihen. Werden nun sämtliche gefundenen Muster aller 10 Zeitreihen gegenüber gestellt, so kann eine Unähnlichkeitsmatrix mit Hilfe eines geeigneten Abstandsmaßes wie in (2) und paarweiser Vergleiche aller Motivvorkommen aufgestellt

Bild 1: Subdimensionales Motiv in DO0_0036.csv, das ab den Messpunkten 389 und 2543 gefunden wurde.

150

Bild 2: Das Dendrogramm aller subdimensionalen Motive der gegebenen Zeitreihen, die sich mindestens in den Kanälen attr_1 und attr_3 aufzeigen. Wird das Dendrogramm in zwei Gruppen zerlegt, so wird angenommen, dass die Motivvorkommen in jedem der zwei Teilbäume jeweils untereinander ähnlich sind. Andererseits sollten sich Motivvorkommen in zwei unterschiedlichen Teilbäumen nicht ähneln.

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

at 3/2009

werden. Diese ist naturgemäß symmetrisch, positiv und enthält auf der Hauptdiagonale Nullelemente. Sie kann zum Gruppieren der Vorkommen genutzt werden, um Motive zu finden, die in mehreren Zeitreihen verteilt auftreten.

at 3/2009

Dies ist in Bild 2 verdeutlicht. Hier wurde aus der Unähnlichkeitsmatrix durch hierarchisches Clustern [5] mit dem Statistikprogramm R [17] ein Dendrogramm erzeugt, dass in beliebigen Höhen geschnitten werden kann. Jeder Schnitt führt zu zwei Gruppierungen von Teilsequenzen, die zu einem gewissen Grad als Motiv aufgefasst werden können. Zur besseren Übersicht sind nur subdimensionale Motive, welche die Kanäle attr_1 und attr_3 enthielten, zum Erstellen der Unähnlichkeitsmatrix gewählt worden. Wie gesehen werden kann, ist das Motivvorkommen der Zeitreihe DO0_0036.csv am Zeitstempel 2543 ähnlich zum Motiv der Zeitreihe DO0_0077.csv zu den Zeitpunkten 808 und 2024. Dies gilt zumindest für die beiden ausgewählten Kanäle attr_1 und attr_3. Das dem so ist, wird in Bild 3 klar und deutlich gezeigt. Hier ist das subdimensionale Motiv der Zeitreihe DO0_0077.csv dargestellt, das ab den Zeitpunkten 808 bzw. 2024 beobachtet werden kann. Die Kanäle attr_1 und attr_3 ähneln sehr stark dem Motiv, das in Bild 1 aufgezeigt wurde. Somit lässt sich erahnen, dass all diese 4 Motivvorkommen durchaus zum selben Motiv gehören.

4 Benennen der gefundenen Motive Mit einer Menge an subdimensionalen Motiven sind lediglich multivariate Zeitreihensequenzen einer bestimmten Länge w gefunden worden, die mehrmals aufgetreten sind. Ein Motiv kann bei der Masse an Daten auch zufällig gefunden worden sein. So ist es bei den in Abschnitt 1 angesprochenen Versuchen wahrscheinlich, dass ein Motiv, welches nur zweimal aufgetreten ist, keine tragende Rolle spielt. Motive, die jedoch häufiger aufgetreten sind, sollten hauptsächlich von Experten, die die Versuche entworfen haben, aussagekräftig gekennzeichnet werden. Sie verfügen für gewöhnlich über das notwendige Wissen, um simple, aber auch komplexe Kurvenverläufe zu interpretieren. Diese Kennzeichnung (oder Markierung) kann z. B. anhand der Testkriterien erfolgen. Sollte kein Expertenwissen verfügbar sein, kann auf Methoden der Fuzzy-Mengentheorie (engl. ,,Fuzzy Set Theory“ (FST)) [4] zurückgegriffen werden. Die FST versucht ungenaue, vage oder auch ungewisse Konzepte, wie z. B. Messungen an Sensoren, zu modellieren und dem Menschen für ein besseres Verständnis zugänglich zu machen. Beispielsweise kann jedes Attribut als linguistische Variable aufgefasst werden [22]. Dabei wird der Wertebereich eines Attributs unterteilt in sogenannte Fuzzy-Partitionen. Jede Partition wird durch eine Fuzzy-Menge A beschrieben. Dadurch kann jedem Wert x ein Zugehörigkeitsgrad μ A (x) ∈ [0, 1] zur Fuzzy-Menge A zugeordnet werden.

Bild 3: Subdimensionales Motiv in DO0_0077.csv, welches sich ab den Zeitstempeln 808 bzw. 2024 äußert.

Als Beispiel kann die Geschwindigkeit v als Messgröße betrachtet werden. Diese kann z. B. durch die linguistischen Ausdrücke schnell, mittel, langsam beschrieben werden. Jeder Ausdruck entspricht einer Fuzzy-Partition,

151

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

C. Moewes, R. Kruse: Zuordnen von linguistischen Ausdrücken zu Motiven in Zeitreihen

METHODEN

die beschrieben wird durch eine Fuzzy-Menge; hier Aschnell , Amittel , Alangsam . Soll ein gefundenes Motiv einem der linguistischen Ausdrücke zugeordnet werden, so kann vergleichsweise der Mittelwert v¯ aller Geschwindigkeitswerte der Sequenz gebildet werden. Der linguistische Ausdruck mit dem höchsten der drei Zugehörigkeitsgrade μ Aschnell (¯v), μ Amittel (¯v) und μ Alangsam (¯v) kann dann dem Motiv zugeordnet werden. Sind die Versuche sorgfältig geplant (d. h. sie enthalten keine widersprüchlichen linguistischen Ausdrücke), kann davon ausgegangen werden, dass eine Zeitreihe, die ein benanntes Motiv enthält, ebenfalls mit derselben Markierung ausgezeichnet wird. Ist dies nicht der Fall, so kann mit relativen Häufigkeiten von benannten Motiven gearbeitet werden und jeder Zeitreihe mehrere Auszeichnungen zu einem gewissen Grade zugeordnet werden. Jedes benannte Motiv kann daher Antezedens und dessen linguistischer Ausdruck, der unter günstigen Umständen einem Testkriterium entspricht, als Konsequenz einer Regel angesehen werden. Also wird aus den aufgezeichneten Experimenten eine Menge an Regeln induziert, die mit mehr oder minder hohem Aufwand sprachlich interpretieren werden kann.

5 Zuordnen der Motive Alle bisherigen Betrachtungen bezogen sich ausschließlich auf die Daten der Feldversuche. Die Annahme aus Abschnitt 1 war, dass diese Versuche behutsam geplant und durchgeführt werden. Ganz anders mag sich ein zu testendes System in einer realen Umgebung, etwa bei der Bedienung durch einen Endanwender, verhalten. Hier stellt sich die Schwierigkeit, dass Systeme unter realen Belastungen keinem geplanten Ablaufmuster unterworfen sind. Alles, was zur Auswertung dieser Systeme bleibt, sind die aufgezeichneten Sensordaten, die hoffentlich ähnliche Motive aufweisen, wie die methodischen Experimente. Diese Realdaten werden zuerst speicherplatzeffizient repräsentiert (siehe Abschnitt 2), bevor versucht wird Motive in diesen Daten zu finden (vgl. Abschnitt 3). Nun kann durch die bereits ausgezeichneten Motive der Feldversuche versucht werden, die neu entdeckten Motive mit ähnlichen linguistischen Ausdrücken zu kennzeichnen. Das entspräche im Maschinellen Lernen vergleichsweise einer Klassifizierung, die auf unüberwachtem Lernen basiert. Hierbei ist allein wichtig, dass ein adäquates Distanzmaß gewählt wird, um zwei Motive miteinander zu vergleichen. So haben beispielsweise Lin und Keogh [11] mit SAX auch gleich die sogenannte MINDIST-Funktion entwickelt, die den Abstand zwischen zwei SAX-Worten berechnet. Dies bietet sich an, da die Sequenzen ohnehin als SAX-Worte abgespeichert wurden. Es können allerdings auch andere Distanzmaße, wie z. B. (1) bzw. (2), verwendet werden. Gleichgültig welches Maß gewählt wird, es kann letztendlich jede reale Zeitreihe mehreren vorher unbekannten Kriterien zugeordnet werden. Insofern ist eine Klassifizierung

152

in verschiedene Kategorien eine elementare Konsequenz der hier dargebotenen Überlegungen. Gleichwohl muss berücksichtigt werden, dass diese Einordnung nicht präzise, sondern unscharf (also ,,fuzzy“) erfolgen sollte. Demgemäß bietet sich der Einsatz von Fuzzy-Clustering-Verfahren [7] an. Die in Abschnitt 3.2 angesprochene Möglichkeit des hierarchischen Clusterns bietet sich ebenfalls zum Klassifizieren an. Ist erstmal ein Dendrogramm aus den Motiven der Feldversuche gelernt und in wohldefinierte Cluster aufgeteilt, so können Motive einer ungesehenen Zeitreihe problemlos einem der Teilbäume zugeordnet werden.

6 Anpassung der Versuche Sind vollends alle Motive den Realdaten entnommen und den bereits bestehenden Motiven zugeordnet, sollten sich Experten mit den Ergebnissen der Zuordnung genauer auseinandersetzen. Ziel dabei müsste es sein, die ursprünglichen Versuche anzupassen, sodass sie den Zeitreihen in der Realität mehr ähneln als zuvor. Dabei muss zwischen drei Möglichkeiten unterschieden werden. Sollte ein Motiv einer ungesehenen (aus der Realität stammenden) Zeitreihe problemlos einem Motiv aus den Feldversuchen zugeordnet werden können, so kann davon ausgegangen werden, dass es sich hierbei um wichtige Eigenheiten des Systemverhaltens handelt. Diese Charakteristiken gilt es in den Versuchen auf jeden Fall auch in der nächsten Generation von Systemtests zu bewahren. Anders verhält es sich mit einem Motiv, das sich ausschließlich in den Feldversuchen und nicht in der Realität zeigt. Diese Merkmale sollten nach Begutachtung von Experten höchstwahrscheinlich aus den Versuchen beseitigt werden. Sie scheinen offensichtlich nicht von Bedeutung zu sein. Gibt es wiederum Motive in ungesehenen Zeitreihen, die sich in gar keinem Versuch äußern, so müssen Experten wenigstens einen der Versuche anpassen. Immerhin scheint das Motiv eine doch wiederkehrende Eigenart des Systems zu sein, die bei den bisherigen Feldversuchen entweder überhaupt nicht oder zu selten aufgetreten ist. Sind endgültig alle relevanten Motive begutachtet und die Planung der Versuche verbessert, kann die nächste Generation von Experimenten durchgeführt werden. Die in den Tests gewonnenen Erkenntnisse über Belastungen oder auch Lebensdauer des Systems sollten folglich mehr denen der in der Realität eingesetzten Serienprodukte entsprechen. Schlussendlich können diese Erfahrungen möglicherweise eine Korrektur in der Entwicklung des Systems bewirken.

7 Zusammenfassung und Ausblick In diesem Aufsatz ging es um die Frage, wie Feldversuche von Serienprodukten an reale Verhältnisse angepasst werden können. Dabei wurde insbesondere der effizienten

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

at 3/2009

Analyse von multivariaten Zeitreihen nachgegangen, zumal in der Praxis meist bloß aufgezeichnete Sensordaten vieler Kanäle zur Verfügung stehen. Es wurde argumentiert, dass symbolische Repräsentationen (vornehmlich SAX) Vorteile in der Datenanalyse von Zeitreihen bringen. Des Weiteren gibt es darauf aufbauend sehr wirksame Methoden, die es ermöglichen wiederkehrende Sequenzen, sogenannte Motive, auch in multivariaten Zeitreihen schnell zu finden. Leider existieren bis heute noch keine befriedigenden Heuristiken für die Unmenge an Parametern, die die Suche und somit den Erfolg der Anwendung stark beeinflussen. Mit Hilfe von linguistischen Ausdrücken und den gefundenen Motiven sowohl in Versuchs- als auch Realdaten können einzelne reale Zeitreihen den Feldtests zugeordnet werden. Die linguistischen Ausdrücke mögen dabei entweder von Experten kommen oder aus den Sequenzen generiert werden. Nach dem Gruppieren aller Zeitreihen können Experten die ursprünglichen Versuche den realen Beobachtungen anpassen. Was nicht in diesem Aufsatz abgedeckt wurde, ist die Erkennung von Fehlverhalten oder Anomalien [10] in den Messdaten. Vielmehr ging es um die Unterstützung der Optimierung von Versuchsabläufen. Es wurde nach häufigen Mustern gesucht, während Anomalien sehr selten auftreten. Die Idee entstand in einem Drittmittelprojekt, an dem der Lehrstuhl zusammen mit einem Industriepartner gearbeitet hat. Dieser beherbergt eine Unzahl an Versuchsdaten und bereits zugeordnete Testkriterien, die diese Versuche beschreiben sollen. In der Industrie werden meist eindimensionale Lastkollektive als Vergleiche zwischen Experiment und Realität herangezogen. Diese Arbeit soll als Ergänzung zu den bestehenden Analysemethoden dienen. Bisher sind die Anstrengungen soweit voran geschritten, dass erste aussagekräftige Motive gefunden wurden. Allerdings dürfen angesichts der Geheimhaltung des Projektes keinerlei Namen, Ergebnisse, Analysen und Daten veröffentlicht werden. Als nächster Schritt ist die Anwendung von FuzzyClustering-Verfahren auf alle gefundenen subdimensionalen Motive geplant, um Regeln für einige der Zeitreihen abzuleiten. Diese dürften dann bei der Analyse der realen Beobachtungen weiterhelfen. Außerdem ist angedacht, die Zuordnung von Motiven zu linguistischen Ausdrücken zu automatisieren und mit den Testkriterien abzugleichen. Dabei werden dann nicht nur lokale Trends (z. B. Mittelwerte) in den Sequenzen verwendet, sondern auch die Variabilität und die Dauer der Motive. Letzteres Kriterium ist ohne Expertenwissen das wahrscheinlich schwerste von allen, da die Länge eines Motivs prinzipiell nicht bekannt ist. Sollte es also gelingen einen Algorithmus zu entwickeln, der auch Motive unterschiedlichster Länge finden kann, wäre zumindest dieses Problem gelöst. Ansätze von [15; 21] mögen vermutlich hilfreich dabei sein.

at 3/2009

Literatur [1] Manuele Bicego, Vittorio Murino, and M´ario A. T. Figueiredo. Similarity-based clustering of sequences using hidden markov models. Machine Learning and Data Mining, 12:86–95, 2003. [2] Jeremy Buhler and Martin Tompa. Finding motifs using random projection. Journal of Computational Biology, 9(2):225–242, 2002. [3] Bill Yuan-chi Chiu, Eamonn J. Keogh, and Stefano Lonardi. Probabilistic discovery of time series motifs. In Lise Getoor, Ted E. Senator, Pedro Domingos, and Christos Faloutsos, editors, KDD, pages 493–498. ACM, 2003. [4] Didier Dubois and Henry Prade, editors. Fundamentals of Fuzzy Sets. Kluwer Academic Publishers, Boston, MA, USA, 2000. [5] Richard O. Duda and Peter E. Hart. Pattern Classification and Scene Analysis. John Wiley & Sons Ltd, New York, NY, USA, 1973. [6] Frank Höppner. Discovery of temporal patterns: Learning rules about the qualitative behaviour of time series. In Luc De Raedt and Arno Siebes, editors, PKDD, volume 2168 of Lecture Notes in Computer Science, pages 192–203. Springer, 2001. [7] Frank Höppner, Frank Klawonn, Rudolf Kruse, and Thomas Runkler. Fuzzy Cluster Analysis: Methods for Classification, Data Analysis and Image Recognition. John Wiley & Sons Ltd, New York, NY, USA, 1999. [8] IEEE Computer Society. Proceedings of the 2002 IEEE International Conference on Data Mining (ICDM 2002), Maebashi City, Japan, December 9–12, 2002, 2002. [9] Eamonn J. Keogh, Kaushik Chakrabarti, Michael J. Pazzani, and Sharad Mehrotra. Dimensionality reduction for fast similarity search in large time series databases. Knowledge and Information Systems, 3(3):263–286, 2001. [10] Jessica Lin, Eamonn J. Keogh, and Stefano Lonardi. Visualizing and discovering non-trivial patterns in large time series databases. Information Visualization, 4(2):61–82, 2005. [11] Jessica Lin, Eamonn J. Keogh, Stefano Lonardi, and Bill Yuan-chi Chiu. A symbolic representation of time series, with implications for streaming algorithms. In Mohammed Javeed Zaki and Charu C. Aggarwal, editors, DMKD, pages 2–11. ACM, 2003. [12] Jessica Lin, Michail Vlachos, Eamonn J. Keogh, and Dimitrios Gunopulos. Iterative incremental clustering of time series. In Elisa Bertino, Stavros Christodoulakis, Dimitris Plexousakis, Vassilis Christophides, Manolis Koubarakis, Klemens Böhm, and Elena Ferrari, editors, EDBT, volume 2992 of Lecture Notes in Computer Science, pages 106–122. Springer, 2004. [13] David Minnen, Charles Lee Isbell, Jr, Irfan A. Essa, and Thad Starner. Detecting subdimensional motifs: An efficient algorithm for generalized multivariate pattern discovery. In ICDM, pages 601–606. IEEE Computer Society, 2007. [14] David Minnen, Thad Starner, Irfan A. Essa, and Charles Lee Isbell, Jr. Improving activity discovery with automatic neighborhood estimation. In Manuela M. Veloso, editor, IJCAI, pages 2814–2819, 2007. [15] Tim Oates. Peruse: An unsupervised algorithm for finding recurrig patterns in time series. In ICDM [8], pages 330– 337. [16] Pranav Patel, Eamonn J. Keogh, Jessica Lin, and Stefano Lonardi. Mining motifs in massive time series databases. In ICDM [8], pages 370–377. [17] R Development Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2008.

153

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

C. Moewes, R. Kruse: Zuordnen von linguistischen Ausdrücken zu Motiven in Zeitreihen

METHODEN

[18] Lawrence R. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. Readings in speech recognition, pages 267–296, 1990. [19] Yoshiki Tanaka, Kazuhisa Iwamoto, and Kuniaki Uehara. Discovery of time-series motif from multi-dimensional data based on mdl principle. Machine Learning, 58(2–3):269– 300, 2005. [20] Xiaopeng Xi, Eamonn J. Keogh, Christian R. Shelton, Li Wei, and Chotirat Ann Ratanamahatana. Fast time series classification using numerosity reduction. In William W. Cohen and Andrew Moore, editors, ICML, volume 148 of ACM International Conference Proceeding Series, pages 1033–1040. ACM, 2006. [21] Dragomir Yankov, Eamonn J. Keogh, Jose Medina, Bill Yuanchi Chiu, and Victor B. Zordan. Detecting time series motifs under uniform scaling. In Pavel Berkhin, Rich Caruana, and Xindong Wu, editors, KDD, pages 844–853. ACM, 2007. [22] Lotfi A. Zadeh. The concept of a linguistic variable and its applications to approximate reasoning–I. Information Sciences, 8(3):199–249, 1975.

154

Manuskripteingang: 3. September 2008. Dipl.-Inform. Christian Moewes ist wissenschaftlicher Mitarbeiter des Lehrstuhls für Computational Intelligence an der Universität Magdeburg. Hauptarbeitsgebiete: Analyse von massiven multivariaten Zeitreihen, Entdeckung verständlicher Fuzzy-Regeln mittels Stützvektormethode (SVM). Adresse: Fakultät für Informatik, Otto-von-GuerickeUniversität Magdeburg, Universitätsplatz 2, 39106 Magdeburg, Tel.: +49 (0)391 67-11358, Fax: +49 (0)391 67-12018, E-Mail: [email protected] Prof. Dr. rer. nat. Rudolf Kruse ist Leiter des Lehrstuhls für Computational Intelligence an der Universität Magdeburg. Hauptarbeitsgebiete: Methoden der künstlichen Intelligenz, insbesondere der intelligenten Datenanalyse. Adresse: Fakultät für Informatik, Otto-von-GuerickeUniversität Magdeburg, Universitätsplatz 2, 39106 Magdeburg, Tel.: +49 (0)391 67-18706, Fax: +49 (0)391 67-12018, E-Mail: [email protected]

This article is protected by German copyright law. You may copy and distribute this article for your personal use only. Other use is only allowed with written permission by the copyright holder.

at 3/2009