Statistikformeln und Datenanalyse

Datenanalysen sind in vielen Bereichen unverzichtbar geworden. Um das volle Potenzial von Excel auszuschöpfen, ist es wichtig, einige grundlegende Statistikformeln zu verstehen. In diesem Blogbeitrag stelle ich Dir einige wichtige Formeln vor, erläutere ihre Syntax und zeige jeweils zwei mögliche Anwendungsfälle auf.

Standardabweichung (STABW)

Die Standardabweichung ist ein Mass für die Streuung von Datenpunkten um den Durchschnitt (auf die wohl allbekannte Formel "MITTELWERT" gehe ich hier nicht ein), wobei es eine Unterscheidung zwischen STABW.N (Grundgesamtheit) und STABW.S (Stichprobe) gibt.

Syntax

=STABW.S(Zahl1; Zahl2; ...)

Die Funktion berechnet die Standardabweichung einer Gruppe von Zahlen.

Anwendungsfälle

  1. Qualitätskontrolle: In der Produktion kann die Funktion verwendet werden, um die Streuung von Produktionsmessungen zu analysieren und die Qualität zu überwachen.
    Beispielsweise: "=STABW.S(3; 4; 2; 5; 3)"
  2. Finanzanalyse: Bei der Analyse von Finanzdaten kann die Standardabweichung verwendet werden, um das Risiko einer bestimmten Investition zu bewerten.

Korrelationskoeffizient (KORREL)

Der Korrelationskoeffizient misst die Stärke und Richtung der linearen Beziehung zwischen zwei Variablen respektive zwei Bereichen.

Syntax

=KORREL(Matrix1; Matrix2)

KORREL berechnet den Korrelationskoeffizienten zwischen zwei Datenbereichen.

Anwendungsfälle

  1. Marktforschung: In der Marktforschung wird der Korrelationskoeffizient verwendet, um die Beziehung zwischen Werbeausgaben und Verkaufszahlen zu analysieren.
    Beispielsweise: "=KORREL(A2:A13; B2:B13)", wobei Spalte A die Werbeausgaben für 12 Monate beinhaltet, Spalte B die Verkaufszahlen.
  2. Sportanalyse: Bei der Analyse von sportlichen Leistungen zeigt der Korrelationskoeffizient den Zusammenhang zwischen Trainingsstunden und Leistungsergebnisse auf.

Quantile (QUANTIL.INKL)

Die QUANTIL.INKL-Funktion gibt den Wert zurück, unter welchem eine gegebene Prozentsatzmenge der Daten liegt.

Syntax

=QUANTIL.INKL(Bereich; K)

Die Funktion QUANTIL-INKL gibt das Quantil (K) einer Datenmenge zurück, wobei K im Bereich von 0 bis 1 liegt. Das Quantil entspricht dem Wert, unter welchem eine bestimmte Prozentsatzmenge der Daten fällt. (Es gibt zudem die Option "QUANTIL-EXKL", wobei K ausgeschlossen und nicht eingeschlossen ist.)

Anwendungsfälle

  1. Einkommensverteilung: Um das k-te Quantil des Einkommens in einer Bevölkerung zu berechnen.
    Beispielsweise: "=QUANTIL.INKL(A2:A100; 0.9)"
  2. Leistungsanalyse: Um den unteren Leistungsstand zu identifizieren, kann das 25. Quantil von Prüfungsergebnissen ermittelt werden.

Regressionsanalyse (RGP)

Die RGP-Funktion führt eine einfache lineare Regression durch und gibt eine Analyse der Regressionsstatistik zurück. Dies dient zur grafischen Darstellung der linearen Beziehung einer unabhängigen und einer abhängigen Variablen.

Syntax

=RGP(Y-Werte; X-Werte; Konstante; Statistik)

Die Funktion berechnet die Regressionsstatistik für eine Gruppe von Datenpunkten und gibt verschiedene Statistiken zurück, einschliesslich der Regressionsgeraden und dem Bestimmtheitsmass (R²).

Anwendungsfälle

  1. Verkaufsprognose: Um den Zusammenhang zwischen Werbeausgaben (X) und Verkaufszahlen (Y) zu analysieren und darzustellen, kommt die Regressionsanalyse (RGP-Funktion) zum Einsatz.
    Beispielsweise: "=RGP(B2:B13; A2:A13; WAHR; WAHR)", wobei Spalte A die Werbeausgaben für 12 Monate beinhaltet, Spalte B die Verkaufszahlen.
  2. Wettervorhersage: Meteorologen verwenden die Funktion, um den Zusammenhang zwischen der Temperatur (X) und der Niederschlagsmenge (Y) zu untersuchen.

Die Anwendung dieser Formeln erweitert Deine Fähigkeit in der Datenanalyse mit Excel und ermöglichen es, fortgeschrittenere Einblicke in Deine Daten zu gewinnen. Experimentiere mit verschiedenen Datensätzen und passe die Formeln auf Deine spezifischen Analyseanforderungen an.

Text verketten (mit und ohne leeren Inhalten)

Vor einiger Zeit wurde hier das Verketten (Aneinanderreihen) von mehreren Spalteninhalten dargestellt. Hierzu wurde die Formel "=VERKETTEN" verwendet (siehe dieser Beitrag). Dabei wurde jeweils das Trennzeichen zwischen jeder Einzelzelle gesetzt. Die Formel "=TEXTVERKETTEN" jedoch ermöglicht es uns, ein generelles Trennzeichen zu definieren, mit welchem wir die zusammengefügte Zeichenfolge trennen möchten. Das kann ein Leerzeichen sein oder auch ein Sonderzeichen wie ",", ";" oder auch "|". Das kennen wir insbesondere, wenn wir eine "csv-Datei" (comma-separated values) erstellen oder anbinden möchten.

Zur Illustration haben wir folgende Datentabelle:
Textverketten_raw

Wenn wir diese Inhalte nun miteinander verketten möchten, fügen wir folgende Formel in der Zelle "F2" ein:

=TEXTVERKETTEN("|";FALSCH;A2:E2)

Als Trennzeichen haben wir das "Pipe-Symbol" ("|") definiert. Danach folgt eine wichtige Entscheidung mittels Angabe von "WAHR" oder "FALSCH", nämlich ob wir leere Zellen ignorieren möchten. Das Resultat sehen wir sogleich. Es ist für uns nicht dienlich, allfällige leere Zellen zu ignorieren (z.B. wenn kein Kommentar eingefügt wurde). Denn das führt lediglich dazu, dass jemand bei der Anbindung der Daten im Nachgang eine falsche Spaltenzuweisung haben könnte.

Das aggregierte Resultat sieht demnach so aus:
Textverketten_FALSCH

 Wie Du im Beispiel sehen kannst, sind die verketteten Einträge zum Dienstag, Mittwoch, Donnerstag und Freitag ohne Kommentar. Sie verfügen jedoch über zwei Trennzeichen zwischen "Temp." (Temperatur) und "Eintrag durch". Hätten wir in der Formel anstelle dessen "WAHR" aufgeführt und leere Zellen ignoriert, wäre das Resultat wie folgt:
Textverketten_WAHR

Daten transponieren (Formel ZEILENUMBRUCH)

Angenommen Du erhältst Daten in einer ungünstigen Struktur. Womöglich kennst Du die Funktion "Transponieren", indem Du die Daten markierst, kopierst und mittels "transponieren" einfügst. Dies "dreht" Deinen Bericht von einer Zeilen- zu einer Spaltenansicht (oder vice versa). Siehe hierzu auch diesen Beitrag: Einen Bericht drehen (Spalten zu Zeilen - Transponieren).

Für diesen Beitrag haben wir das untenstehende Datenset, mit zufälligen Adressdaten erhalten:

Daten transponieren - Beispieldaten

Wir können die Daten nicht weiterverwenden und müssen sie zuerst in dedizierte Spalten "Name", "Adresse" und "Telefon" bringen. Welche Lösungsansätze bieten sich uns? Mittels eingangs erwähntem "Transponieren" kommen wir nicht weiter; respektive nur ansatzweise (Eintrag für Eintrag). Ein manueller Übertrag kommt für uns natürlich nicht in Frage. Ein Makro mit einer For Each-Schleife würde funktionieren, es bietet sich jedoch mit einer einzigen Excel-Formel eine Lösung an: Die Formel "=ZEILENUMBRUCH" kann die Daten direkt für uns aufbereiten. Dies ist die Formel-Syntax:

Formel Zeilenumbruch-Syntax

Konkret können wir unsere Daten (die übrigens in den Zellen A1:A45 sind), mit folgender Formel aufbereiten lassen:

=ZEILENUMBRUCH(A1:A45;3)

Der "Vektor" beinhaltet der Bereich, wo unsere Daten aufgeführt sind. Die zweite Angabe, der "wrap_count" definiert, nach wie vielen Einträgen Excel jeweils einen "Zeilenumbruch" einfügen soll, um auf der nächsten Zeile fortzufahren.

Daten transponieren - Result

Die Formel hat eine optionale Angabe "pad_with". Falls Du im Allgemeinen eine grosse Datenmenge zusammenführen möchtest und in der letzten Zeile nicht alle Einträge gefüllt werden, erhältst Du einen "#N/V"-Fehler. Mit der "pad_with"-Angabe kannst Du einen Wert dafür definieren (z.B. "NULL", "LEER", etc.).

Anstelle von "ZEILENUMBRUCH" könntest Du je nach Anwendungsfall auch "SPALTENUMBRUCH" verwenden; das Konzept ist ähnlich wie beim "SVERWEIS" und dem "WVERWEIS". Falls Du Excel auf Englisch benutzt, wären dies die Formeln "WRAPROWS" (ZEILENUMBRUCH) oder "WRAPCOLS" (SPALTENUMBRUCH), Rows für Zeilen, Cols für Spalten (Columns).

Die zufällig generierten "Testdaten" habe ich im Übrigen mit UiPath und dem "Testing" Aktivitäten-Package aufbereitet (UiPath.Testing.Activites). Es sind dies die Aktivitäten GivenName, LastNameAddress und RandomNumber.