Streuspanne – die Cross-Plattform der Statistik
Wie dieser Blog zu seinem Namen kam und warum sein Namensvetter ganz schön nützlich ist.
Wie dieser Blog zu seinem Namen kam und warum sein Namensvetter ganz schön nützlich ist.
Statistiker – oder zumindest statistische Methoden – kommen dann ins Spiel, wenn es irgendeine Variation in den Daten gibt. Um diese Variation in Zahlen zu fassen, sind vor allem die beiden Größen Varianz und Standardabweichung (auch kurz Streuung genannt) bekannt. Wer sein Wissen über diese beiden Größen auffrischen möchte, dem sei folgender Wikipedia-Artikel empfohlen: Varianz_(Stochastik).
Mathematiker/innen bevorzugen den Umgang mit Varianzen, sonstige Wissenschaftler für gewöhnlich die Standardabweichung. Das ist nachvollziehbar, denn nur so erhält man die gleiche Einheit: Misst man Lebensdauern in Kilometern, so hat die Standardabweichung ebenfalls die Einheit Kilometer, während man Varianzen in Quadratkilometern angeben müsste.
Einige Communities haben eigene Bezeichnungen eingeführt. Die Finanzmathematiker sprechen von Volatilitäten und die Betriebsfestigkeitsingenieure ziehen sich auf den schönen Begriff der Streuspanne zurück. »Streu« als Synonym für Statistik und »Spanne« für eine breite Themenwahl lieferten damit einen guten Namenspatron für diesen Blog. Hinzu kommt, dass Streuspannen regelrecht ikonisch für die Statistik in der Betriebsfestigkeit sind. Lassen Sie uns das Konzept samt seiner Tragweite, Willkür und möglichen Stolpersteine genauer analysieren!
Wenn man seine Daten auch gerne in logarithmierter Form anschaut, beginnt die Wissenschaft sich mit den Standardabweichungen unwohl zu fühlen. Der Grund ist einfach: Zwischen den Standardabweichungen der originalen und der logarithmierten Daten gibt es keine Formeln zur Umrechnung. Man behalf sich mit einem Trick: Die Streuspanne wird (in der Betriebsfestigkeit) als der Quotient zwischen der 90%- und der 10%-Lebensdauer definiert.
Beispiel – deskriptiver Ansatz:
Bei 13 Daten liegt die 10%-Lebensdauer (auch 10%-Quantil oder 10%-Perzentil genannt) zwischen dem kleinsten und zweitgrößten Wert; die 90%-Lebensdauer analog zwischen dem größten und zweitgrößten Wert. Hier im Bild sehen wir die 10%-Lebensdauer bei 53,2, die 90%-Lebensdauer bei 101,0 und somit eine Streuspanne von 101,0 : 53,2 = 1,89:
Auf der logarithmierten Skala wird aus diesem Quotient eine Differenz:
Wunderbar, denn diese Größe verwenden auch die Statistiker unter dem Namen »10%-Quantilsabstand«. Man kann somit den Wert 1,89 als Quotient der beiden Quantile vor dem Logarithmus oder eben als Differenz nach dem Logarithmus interpretieren.
Geschrieben werden Streuspannen dann für gewöhnlich als »1:T=1:1,89«. [Anmerkung des Autors: Als Mathematiker empfinde ich das als schrullig! Warum nicht gleich „T=1,89“ schreiben? Gleichzeitig ist mir bewusst, dass ich als Mathematiker steinewerfend im Glashaus sitze, wenn ich Andere schrullig nenne].
Es ist alternativ möglich, zuerst ein parametrisches Verteilungsmodell an die Daten anzupassen. Etwa die Weibull- oder Lognormalverteilung. Dann bestimmt man diejenigen Punkte auf der x-Achse, an denen die Dichtefunktion den Flächeninhalt 0,1 bzw. 0,9 hat.
Beispiel [fortgesetzt] – parametrischer Ansatz:
Im nachfolgenden Bild sehen wir eine Darstellung im Wahrscheinlichkeitsnetz. Netze sind in der Betriebsfestigkeit ein beliebtes Mittel, um die s-förmigen Verteilungsfunktionen durch eine Gerade darzustellen. Hier finden wir für ein Weibullmodell das 10%-Quantil bei 48,5 und das 90%-Quantil bei 94,5, was zu einer Streuspanne von 1:T=1:1,95 führt. Eine Lognormalanpassung liefert 1:T=1:1,82, also einen sehr ähnlichen Wert zum Weibullansatz. Beide Werte sind hier auch nicht weit vom deskriptiv-ermittelten Wert 1:T=1:1,89 entfernt.
Unser Zahlenbeispiel deutet an: Ob man nun an Weibull- oder Lognormalverteilungen festhält, sorgt nur für geringe numerische Unterschiede. Das schlägt die Brücke zum nicht ganz ernst gemeinten Titel. In der Informatik freut man sich, wenn man Code nur in einer einzigen Sprache schreiben muss und dennoch mehrere Betriebssysteme (Plattformen) damit bedienen kann. Diese Unabhängigkeit vom Verteilungsmodell ist nicht zu unterschätzen, denn der Streit »Weibull vs. Lognormal« wird uns hier im Blog noch ein wenig beschäftigen.
Lassen Sie uns einen Taschenspielertrick anwenden. Wir könnten die beiden Formeln für die Streuspannen gleichsetzen, um einen Ausdruck zu erhalten, der σ und b in Beziehung zueinander setzt:
Diese Formel haben nicht wir am ITWM entdeckt. Dann und wann begegnet sie einem auf Tagungen. Dass wir beim Gleichsetzen numerische Unterschiede von 1,95 zu 1,82, wie bei unserer Beispielstichprobe, ignorieren sei hier verziehen.
Warum eigentlich die 10%- und 90%-Quantile? Warum nicht 5% und 95% oder 1% und 99%. Nun, es wurde so festgelegt und hätte ebenso ein anderes Zahlenpaar treffen können. Irgendwo muss man den Maßstab ja schließlich ansetzen. Natürlich hängt die 0,52 davon ab, dass wir uns auf 10% und 90% geeinigt haben. Bei 1% und 99% hätten wir 0,57 erhalten. Aber auch das können wir ignorieren.
Warum sind wir so nachsichtig bei dieser Formel? Weil Sie sie erst gar nicht verwenden sollten! Wollen Sie mit einer Weibullverteilung arbeiten, so passen Sie bitte – möglichst mit Hilfe der Maximum-Likelihood-Methode – ein Weibullmodell an die Daten an. Analog für Lognormalverteilungen. Übersetzt man einen deutschen Text korrekt in eine andere Sprache, bleibt für gewöhnlich der Sinn erhalten. Man wechselt nur die Darstellung.
Wenn Sie nun hemmungslos das Verteilungsmodell wechseln, so lange nur die beiden Formparameter sich zu 0,52 multiplizieren, so ändert sich der Sinn sehr stark. Sehen Sie sich dazu obige Abbildung an: Die Dichten von Lognormal und Weibull wollen an keiner einzigen Stelle so wirklich zueinander passen. Ihre jeweiligen 10%- und 90%-Quantile und die daraus berechneten Streuspannen sind einigermaßen ähnlich, wie wir uns vorhin schon ausgerechnet haben. Dennoch liegen z.B. die 1%-Quantile (rot bzw. magenta) mit 29,2 (Weibull) zu 40,7 (Lognormal) sehr deutlich auseinander. Für sicherheitsrelevante Bauteile müssen Sie somit sehr genau überlegen, welchem Modell sie folgen.
Streuspannen sind ein wunderbares Mittel, um über die Breite einer Verteilung zu sprechen, egal an welches Modell man glaubt. Stellt man Fragen, die über die Breite hinausgehen, verliert die Streuspanne ihre Anwendbarkeit. Demnach: Bis hierhin und (für diesen Blog-Beitrag) nicht weiter.