Eine Version dieser ungewöhnlichen Daten sind die »globalen Anomalien«. Diese sind im Vergleich zu anderen Beobachtungen in unseren Daten ganz anders strukturiert. Die Abbildung oben zeigt eine Visualisierung dieser Anomalien. Wir sehen, dass die mit X 1 und X 2 gekennzeichneten Punkte weit von den anderen Punkten entfernt liegen.
Eine weitere Art von anomalen Daten sind die »lokalen Anomalien«. Diese befinden sich in der Nähe von Clustern normaler Daten, d. h. von Ansammlungen nicht anomaler Daten, fallen aber nicht in diese Cluster. Cluster von Anomalien sind eine eigene andere Art von Anomalien. In der obigen Abbildung könnte C 2 eine solche Ansammlung von Anomalien sein. Es hängt jedoch vom Anwendungsfall ab, ob es sich wirklich um eine Ansammlung von Anomalien oder von normalen Daten mit geringerer Häufigkeit handelt.
Es gibt viele Anwendungen, bei denen das Erkennen von Anomalien zum Einsatz kommt, zum Beispiel bei der Betrugserkennung. Hier entsprechen die Anomalien auch den Betrugsfällen. Anwendungsfälle sind beispielsweise das Erkennen falscher Informationen in Aufzeichnungen von Pflegediensten oder in E-Mails von Kriminellen, das Entdecken anormaler medizinischer Zustände oder Verhaltensweisen von Patientinnen und Patienten, das Aufdecken potenzieller Fehler oder Ausfälle von Maschinen und vieles mehr.
Warum sind Merkmale mit geringem Vorkommen eine Herausforderung für Algorithmen zum Erkennen von Anomalien?
Was ist nun der Unterschied zwischen kleinen Vorkommnissen, die womöglich sogar unbedeutend sind, und Anomalien? Für den Algorithmus ist ein erheblich selten auftretender Wert eines Merkmals tatsächlich eine Anomalie.
In unserem Beispiel bringt das bloße Erfassen der Daten und die Anwendung eines Algorithmus zum Erkennen von Anomalien mindestens zwei Herausforderungen mit sich:
- Unsere Daten können eine numerische Spalte enthalten, die von verschiedenen Skalen abgeleitet ist. In unserem Beispiel der Ladenkette, die Weihnachtsbäume nach Deutschland, Frankreich und Ungarn verkauft, haben wir Währungen in Euro oder Forint. In den Rohdaten wurden 50 Prozent nach Deutschland, 42 Prozent nach Frankreich und nur acht Prozent nach Ungarn verkauft. Aufgrund des Wechselkurses von Euro und Forint ist der Betrag für Einzelverkäufe nach Ungarn höher als nach Deutschland oder Frankreich. Dies gilt selbst dann, wenn die Daten nahezu ausgeglichen sind. Nun könnte man vermuten, dass die Umwandlung des Betrags für Ungarn dieses Problem löst. Aber trotzdem haben wir die gleichen Anomalien. Warum?
- Nachdem die Währung auf Euro umgestellt wurde, wird der Algorithmus keine Anomalien aufgrund unterschiedlicher Skalen mehr feststellen. Allerdings ist die Datenmenge in Ungarn im Vergleich zu Deutschland oder Frankreich immer noch viel geringer, weshalb das System diese Daten als anormal erkennen wird.
In beiden Fällen handelt es sich bei den Beobachtungen in Ungarn um eine relativ geringe Anzahl von Beobachtungen. Daher werden die Algorithmen, die nach globalen Ausreißern – d. h. nach einer kleinen Anzahl von Beobachtungen, die weit von den anderen entfernt sind – suchen, diese als Anomalien erkennen. Dies erklärt, warum Ungarn bei ausgeglichenen Daten mit einheitlicher Währung nicht mehr als anomal erkannt wird.
Wir hoffen natürlich, dass Auffälligkeitsalgorithmen gut implementiert sind und Ihr Euren Weihnachtsbaum im Geschäft Eurer Wahl zu fairen Bedingungen kaufen könnt.