Im Mittel nicht 50:50
Mittelwert und Median sind normal das gleiche, meistens jedoch nicht. Das ist gut zu wissen, falls Sie gelegentlich Lebensdauern logarithmieren.
Mittelwert und Median sind normal das gleiche, meistens jedoch nicht. Das ist gut zu wissen, falls Sie gelegentlich Lebensdauern logarithmieren.
Vorab eine Warnung an Leser mit statistischer Vorbildung: Wir unterscheiden nachfolgend kaum zwischen Mittelwert, arithmetischem Mittelwert und Erwartungswert. Klammheimlich springen wir zwischen Stichprobe und Grundgesamtheit und mixen parametrische mit deskriptiven Kennwerten. Wir tun dies in bester didaktischer Absicht.
Jeder erinnert sich an einen ehemaligen Schullehrer, der Notenspiegel niemals ohne den Kommentar »Eigentlich darf man den Mittelwert hier gar nicht ausrechnen, aber ich mach’s halt mal.« an die Tafel gemalt hat. Er hatte recht. Schulnoten folgen einer Ordinalskala, auf der man die Werte zwar bzgl. Größe vergleichen kann, aber besser nicht damit rechnet. Oder ist eine eins etwa doch doppelt so gut wie eine zwei und sechsmal so gut wie ein »ungenügend«? Eher nein. Hier bleibt nur der Median x50%, also diejenige Zahl, die nach Sortierung aller Schüler nach Noten genau in der Mitte steht (und damit genau die Hälfte der Schüler über bzw. unter sich hat). Mittelwerte darf man also gar nicht immer berechnen.
Auch bei Statistiken zum Haushaltseinkommen vermeidet man es – obgleich rechnerisch erlaubt – das arithmetische Mittel xN (gelesen „x N quer“) zu bilden, also alle Werte zu addieren und durch die Anzahl der Werte zu teilen. Gerne wird dies damit begründet, dass dann einige wenige Reiche diesen Wert stark in die Höhe treiben. Mittelwerte will man also gar nicht immer berechnen.
Klingt nach einem 2:0 für den Median. Er kann fast immer bestimmt werden und ist robust gegen Ausreißer (wie etwa in Form der Reichen). Bleiben wir noch einen Moment bei den abgebildeten (erfundenen) Daten zum Haushaltseinkommen. Der rot eingezeichnete Median ist typisch für die linke Hälfte der Daten und untypisch für die rechte Hälfte. Der orangefarbene Mittelwert ist für beide Hälften untypisch, dafür jedoch ein guter Kompromiss. Betrachtet man die Abstände des Mittelwertes zu jedem einzelnen Datenpunkt, erkennt man, dass der Mittelwert optimal liegt, denn er minimiert die Summe der quadratischen Abstände. Zur Erinnerung: Den Median interessiert nur die Balance bzgl. Anzahl, nicht jedoch bzgl. Abstand. Dieser kleine Unterschied verschafft dem Mittelwert eine einzigartige Eigenschaft: In Glücksspielen entscheidet einzig er langfristig über Gewinn oder Verlust – völlig gleichgültig, wo der Median liegt. Lediglich Wetten mit Mittelwert 0 sind fair für beide.
Bezieht man die Daten aus einer symmetrischen Grundgesamtheit, so verschwindet der Unterschied zwischen Mittelwert und Median: Der Tipp, der den geringsten (mittleren quadratischen) Fehler aufweist, ist ebenso mit gleicher Tendenz zu groß oder zu klein. Die Gauß’sche Normalverteilung ist der bekannteste Vertreter dieser Gattung.
Einschub für Hobby-Mathematiker:
Der Zusatz „Grundgesamtheit“ ist hier entscheidend. Bei symmetrischen Verteilungen sind der (wahre) Median und der wahre arithmetische Mittelwert (genannt Erwartungswert) identisch. Für jede konkrete Stichprobe sind Mittelwert und (Stichproben-)Median unterschiedlich, konvergieren aber in einem stochastischen Sinn mit größer werdendem Stichprobenumfang gegen den gleichen wahren Wert.
Zählt man von Bauteilen in Kraft- und Nutzfahrzeugen die Kilometer oder Betriebsstunden bis zum Ausfall oder Defekt eines Bauteils, so zeigt sich zunächst leider keine symmetrische Verteilung. Schade! Mit Freude hat man daher schon vor Jahrzenten festgestellt, dass die Logarithmen der Lebensdauer einigermaßen normalverteilt aussehen. Schön! Man logarithmiert, führt seine Berechnungen durch und transformiert zurück (also z.B. durch Exponenzieren). Leider zu früh gefreut.
Es widerspricht der Intuition, ist mathematisch jedoch glasklar: Für die logarithmierten Daten ist es unnötig, zwischen Median und Mittelwert zu unterscheiden. Mit „unnötig“ ist hierbei gemeint: Die Formeln zur Berechnung beider Werte liefern zwar leicht unterschiedliche Resultate, diese darf man aber auf das Zufallsrauschen zurückführen. Wer auf der logarithmierten Skala für den Median (oder eben den fast identischen Mittelwert) die Rücktransformation via Exponenzieren antritt, der landet bei den Originaldaten auf dem Median, der dort typischerweise geringer ausfällt als der Mittelwert. Hierfür gibt es einen wahrhaft wunderbaren Beweis. Allein der Rand dieses Blogs ist zu schmal, ihn zu fassen.
Nun ist die Verwirrung perfekt: Der Median lässt sich (fast) immer berechnen und ist robust, während der Mittelwert Wetten gewinnt. Bei symmetrischen Normalverteilungen sind der wahre Median und arithmetische Mittelwert gleich, zerfallen jedoch unter identischer Rücktransformation bei Lebensdauerdaten in zwei verschieden Werte. Und nun?
Bei einer beliebigen Stichprobe gehen Sie wie folgt vor: Sind die Werte nur der Größe nach sortierbar, dann bleibt nur der Median. In höherwertigen Fällen entscheiden Sie, welche Form des Tipps Ihnen sympathischer ist: Einer, der mit gleicher Wahrscheinlichkeit zu hoch wie zu niedrig ist (Median), oder einer, der einen möglichst kleinen (mittleren quadratischen) Fehler hat (arithmetischer Mittelwert). Mit dieser Entscheidung muss der Statistiker Sie nun alleine lassen.
Zwei Dinge gibt er ihnen hierbei noch mit auf den Weg: Bei Lebensdauerdaten werden Sie in der Regel aber bei anderen Kennwerten am besten aufgehoben sein: Den Quantilen (auch Perzentile genannt). Außerdem entspricht der Mittelwert auf den logarithmierten Daten dem geometrischen Mittel auf den Originaldaten. Aber beides ist ein Thema für einen eigenen Beitrag.