Summe der Quadrate Formel Shortcut

Die Berechnung einer Stichprobenvarianz oder Standardabweichung wird typischerweise als ein Bruch angegeben. Der Zähler dieses Bruchteils enthält eine Summe von quadrierten Abweichungen vom Mittelwert. Die Formel für diese Summe von Quadraten ist

Σ (xi - x̄) 2 .

Hier bezieht sich das Symbol x auf den Stichprobenmittelwert und das Symbol Σ sagt uns, dass wir die quadrierten Differenzen (x i - x) für alle i aufaddieren sollen.

Während diese Formel für Berechnungen verwendet wird, gibt es eine äquivalente Abkürzungsformel, für die wir nicht zuerst den Stichprobenmittelwert berechnen müssen.

Diese Abkürzungsformel für die Summe der Quadrate ist

Σ (xi²) - (Σxi) ² / n

Hier bezieht sich die Variable n auf die Anzahl der Datenpunkte in unserer Stichprobe.

Ein Beispiel - Standardformel

Um zu sehen, wie diese Abkürzungsformel funktioniert, betrachten wir ein Beispiel, das mit beiden Formeln berechnet wird. Angenommen, unsere Stichprobe ist 2, 4, 6, 8. Der Stichprobenmittelwert ist (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Jetzt berechnen wir die Differenz jedes Datenpunkts mit dem Mittelwert 5.

Wir setzen nun jede dieser Zahlen zusammen und fügen sie zusammen. (-3) 2 + (-1) 2 + 1 2 + 3 2 = 9 + 1 + 1 + 9 = 20.

Ein Beispiel - Abkürzungsformel

Jetzt werden wir den gleichen Satz von Daten verwenden: 2, 4, 6, 8, mit der Abkürzungsformel, um die Summe der Quadrate zu bestimmen. Wir quadrieren zuerst jeden Datenpunkt und addieren sie zusammen: 2 2 + 4 2 + 6 2 + 8 2 = 4 + 16 + 36 + 64 = 120.

Der nächste Schritt besteht darin, alle Daten zusammenzufassen und diese Summe zu quadrieren: (2 + 4 + 6 + 8) 2 = 400. Wir teilen dies durch die Anzahl der Datenpunkte, um 400/4 = 100 zu erhalten.

Wir ziehen jetzt diese Zahl von 120 ab. Das gibt uns, dass die Summe der quadratischen Abweichungen 20 ist. Das war genau die Zahl, die wir bereits von der anderen Formel gefunden haben.

Wie funktioniert das?

Viele Menschen akzeptieren die Formel nur zum Nennwert und haben keine Ahnung, warum diese Formel funktioniert. Wenn wir ein bisschen Algebra verwenden, können wir sehen, warum diese Abkürzungsformel der herkömmlichen Standardmethode zur Berechnung der Summe der quadrierten Abweichungen entspricht.

Obwohl es in einem realen Datensatz Hunderte, wenn nicht Tausende von Werten geben kann, nehmen wir an, dass es nur drei Datenwerte gibt: x 1 , x 2 , x 3 . Was wir hier sehen, könnte zu einem Datensatz erweitert werden, der Tausende von Punkten hat.

Wir beginnen mit der Feststellung, dass (x 1 + x 2 + x 3 ) = 3 x∞. Der Ausdruck Σ (xi - x̄) 2 = (x 1 - x̄) 2 + (x 2 - x̄) 2 + (x 3 - x̄) 2 .

Wir verwenden nun die Tatsache aus der Basisalgebra, dass (a + b) 2 = a 2 + 2ab + b 2 . Dies bedeutet, dass (x 1 - x̄) 2 = x 1 2 -2x 1 x̄ + x̄ 2 . Wir machen das für die anderen zwei Begriffe unserer Zusammenfassung, und wir haben:

x 1 2 -2x 1 x̄ + x̄ 2 + x 2 2 -2x 2 x̄ + x̄ 2 + x 3 2 -2x 3 x̄ + x̄ 2 .

Wir ordnen das um und haben:

x 1 2 + x 2 2 + x 3 2 + 3 x 2 - 2x (x 1 + x 2 + x 3 ).

Durch Umschreiben (x 1 + x 2 + x 3 ) = 3x wird das obige:

x 1 2 + x 2 2 + x 3 2 - 3 x 2 .

Jetzt, da 3x2 = (x1 + x2 + x3) 2/3, wird unsere Formel:

x 1 2 + x 2 2 + x 3 2 - (x 1 + x 2 + x 3 ) 2/3

Und dies ist ein Sonderfall der oben erwähnten allgemeinen Formel:

Σ (xi²) - (Σxi) ² / n

Ist es wirklich eine Abkürzung?

Es scheint nicht so, als wäre diese Formel wirklich eine Abkürzung. Schließlich scheint es im obigen Beispiel genauso viele Berechnungen zu geben. Ein Teil davon hat damit zu tun, dass wir nur eine Stichprobengröße betrachtet haben, die klein war.

Wenn wir die Größe unserer Stichprobe erhöhen, sehen wir, dass die Abkürzungsformel die Anzahl der Berechnungen um etwa die Hälfte reduziert.

Wir müssen den Mittelwert nicht von jedem Datenpunkt subtrahieren und dann das Ergebnis quadrieren. Dies reduziert die Anzahl der Operationen erheblich.