Change Point Detektion für ganzzahlige Zeitreihen

Im 21. Jahrhundert werden riesige Mengen an Daten gesammelt – und viele stellen sich als sogenannte ganzzahlige Daten dar. Diese treten in der Regel auf, wenn Dinge gezählt werden: Wie oft wird eine Aktie pro Tag gehandelt? Wie oft wird pro Stunde auf eine Website zugegriffen? Wie viele unterschiedliche Zeichen enthalten Emails?

Neue Einblicke durch Change Point Detektion

Durch das Suchen nach Change Points können neue Informationen über solche Daten gefunden werden, automatisiert und ohne menschliches Bias. Bei klinischen Studien sollte wirksames Medikament nach Beginn der Einnahme zur Besserung bei gemessenen Symptomen führen, ein wirkungsloses aber nicht. Bei Besserung verändert sich die Struktur der Zeitreihe nach Einnahme und einen solchen Zeitpunkt bezeichnet man als Change Point.  

Abrupte und kontinuierliche Änderungen

Ein beispielhafter Fall für eine klinische Studie eines ganzzahligen Problems ist ein Medikament gegen Krampfanfälle bei Epilepsiepatienten. Es ist zu erwarten, dass dabei Krampfanfälle von einer zur nächsten Beobachtung – also abrupt – auf ein niedrigeres Level abnehmen. In anderen Fällen kann ein Change Point aber eine kontinuierliche Änderung von einem Level zum nächsten markieren. Bei der Entwicklung von Fallzahlen infektiöser Krankheiten kann man einen Ausbruch als Change Point modellieren. Dazu bedarf es aber neuer Techniken um auch eine exponentielle Entwicklung als Change Point zu Erkennen.

 

Poisson INGARCH(1) Modell mit logistischer Intensität

Auf der Erkennung von solch kontinuierlichen Change Points liegt der Fokus der Arbeit. Für Zeitreihen mit abrupten Change Points gibt es bereits Verfahren zum Auffinden von dieser. Damit ist die Suche nach kontinuierlichen Change Points aber nicht gewährleistet. Ein Modell für ganzzahlige Zeitreihen ist das sogenannte Poisson INGARCH(1) Modell. Allerdings ist es nicht geeignet, um solche kontinuierlichen Change Points zu erkennen. Um das zu verbessern, wird an der Intensitätsfunktion des Prozesses gearbeitet, die gewisse Kontraktivitätseigenschaften erfüllen muss. Im Zuge dieser Arbeit wird stattdessen eine logistische Funktion für die Intensität eingesetzt, die diese Eigenschaften nicht zwangsläufig erfüllt, dabei aber Eigenschaften des Modells an sich erhält.