Übersicht
- Microsoft Excel ist ein hervorragendes Werkzeug, um statistische Funktionen zu erlernen und auszuführen
- Hier sind 12 statistische Funktionen in Excel, die Sie für eine erfolgreiche Analytik-Karriere beherrschen sollten
Lassen Sie uns Excel in der Statistik einsetzen!
„Statistik ist die Grammatik der Wissenschaft.“ – Karl Pearson
Lassen Sie uns das ein wenig relevanter machen – Statistik ist die Grammatik der „Data“ Science. Sie werden feststellen, dass fast jeder erfolgreiche Data Science- oder Analytics-Profi ein solides Verständnis von Statistik hat – aber bedeutet das, dass Sie einen Master-Abschluss in diesem Fach brauchen?
Absolut nicht!
Wir werden uns diesem Artikel mit dem berühmten Pareto-Prinzip nähern – 80 % der Folgen kommen von 20 % der Ursachen. Daher werden wir uns hauptsächlich auf 20% der Konzepte und Funktionen konzentrieren, die in 80% der Fälle nützlich sind! Als Analyst stellt sich nun die Frage, wie man mit der Implementierung von Statistiken beginnt?
Sicherlich können Sie diese Konzepte in Programmiersprachen wie Python und R implementieren und üben. Aber halten Sie sich einen Moment zurück und denken Sie nach – was ist das am häufigsten verwendete Tool in den meisten Unternehmen?
Es ist Microsoft Excel! Ehrlich gesagt, ist Excel das Schweizer Taschenmesser für Analytiker, das Ihnen hilft, sich auf das Wesentliche zu konzentrieren (in unserem Fall Statistik) und den Rest der Berechnungen und Anpassungen selbst erledigt.
Dieser Artikel ist für alle, die ihre Reise in die Statistik mit Excel beginnen. Wir werden 10 wichtige statistische Funktionen in Excel verwenden, um Fragen für ein Dummy-Sportunternehmen, Khelo, zu beantworten, während wir ihre Daten betrachten.
Wenn Sie ein Anfänger in der Welt der Analytik und Excel sind, würde ich Ihnen empfehlen, diese kostenlosen Kurse durchzuarbeiten:
- Einführung in die Business-Analytik
- Microsoft Excel: Formeln & Funktionen
Wie wir uns diesen 1o statistischen Funktionen in Excel nähern
Ich habe diese statistischen Funktionen in Excel in zwei Kategorien unterteilt:
- Grundlegende statistische Funktionen
- Mittlere statistische Funktionen
Lassen Sie uns beginnen!
Verstehen der Daten und der Problemstellung
Wir werden ein paar Schlüsselfragen über unsere Dummy-Sportgeräte- und Bekleidungsfirma – Khelo – lösen. Dies sind die Spalten, die wir haben:
- Ausrüstung
- Anzahl der verkauften Artikel
- Kosten jedes Artikels
- Rabatt %
- Umsatz
Im Laufe dieses Artikels werden wir diese Fragen beantworten:
- Wie viele Artikel sind mit einem Rabatt versehen?
- Wie viele Artikel verkauft das Geschäft?
- Wie hoch ist die Anzahl der Produkte, die ohne Rabatt verkauft werden?
- Wie hoch ist die Anzahl der verkauften Produkte, die mehr als 2000 kosten und gleichzeitig einen Rabatt von mehr als 50 % haben?
- Wie hoch ist die durchschnittliche Anzahl der verkauften Produkte?
- Wie hoch ist der Median der Anzahl der verkauften Produkte?
- Wie hoch ist der häufigste Rabattprozentsatz?
- Wie hoch ist die Standardabweichung der Anzahl der verkauften Produkte?
- Gibt es einen Zusammenhang zwischen der Anzahl der verkauften Produkte und dem Rabattprozentsatz?
Grundlegende statistische Funktionen in Excel
MS Excel bietet eine Reihe von nützlichen statistischen Funktionen. Beginnen wir mit einigen der grundlegenden, aber äußerst leistungsfähigen Funktionen. Ehrlich gesagt, werden Sie feststellen, dass Sie die grundlegenden statistischen Funktionen 90 % der Zeit verwenden und die restlichen 10 % Ihrer Zeit von den mittleren und fortgeschrittenen Funktionen eingenommen werden.
Wir werden hier hauptsächlich über die verschiedenen Arten von Zählfunktionen sprechen. Diese sind anderen Funktionen wie Summe, Max, Min, Durchschnitt sehr ähnlich.
Zählfunktion
Die Zählfunktion verwenden wir, wenn wir die Anzahl der Zellen zählen müssen, die eine Zahl enthalten. Denken Sie daran: NUR ZIFFERN! Sehen wir uns die Funktion an:
- ZÄHLEN(Wert1, , …)
So, versuchen wir, die Antwort auf unsere erste Frage zu finden – Wie viele Artikel waren im Preis reduziert?
Es gibt 11 Produkte mit Rabatt.
Counta-Funktion
Während die Zählfunktion nur die numerischen Werte zählt, zählt die COUNTA-Funktion alle Zellen in einem Bereich, die nicht leer sind. Die Funktion ist nützlich, um Zellen zu zählen, die jede Art von Information enthalten, einschließlich Fehlerwerten und leerem Text.
- COUNTA(wert1, , …)
Wir werden die zweite Frage mit der counta-Funktion beantworten, da sie in der Lage ist, alle nicht leeren Werte zu zählen – Wie viele Artikel/Geräte werden vom Geschäft verkauft?Die Gesamtzahl der vom Geschäft verkauften Artikel ist 13.
Countblank
Die Funktion COUNTBLANK zählt die Anzahl der leeren Zellen in einem Bereich von Zellen. Zellen mit Formeln, die leeren Text liefern, werden hier ebenfalls gezählt, aber Zellen mit Nullwerten werden nicht gezählt. Dies ist eine großartige Funktion, um leere Zellen bei der Analyse beliebiger Daten zusammenzufassen.
- COUNTBLANK(Bereich)
Das Zusammenfassen leerer Zellen ist die Voraussetzung für unsere dritte Frage – Welche Produkte sind nicht im Rabattbereich? Wenden wir die Funktion an!
Es gibt nur 2 Artikel, die nicht rabattiert sind.
Countifs-Funktion
Countifs sind eine der am häufigsten verwendeten Statistikfunktionen in Excel. Die Funktion ZÄHLEN wendet eine oder mehrere Bedingungen auf die Zellen im angegebenen Bereich an und gibt nur die Zellen zurück, die alle Bedingungen erfüllen.
- ZÄHLEN(kriterien_bereich1, kriterien1, …)
Hinweis: Jeder neue Bereich muss die gleiche Anzahl von Zeilen und Spalten haben wie das Argument kriterien_bereich1. Diese Funktion scheint perfekt zu sein, um die vierte Frage zu beantworten: „Gibt es Produkte, die mit einem Preis von mehr als 2000 verkauft wurden, zusammen mit einem Rabattsatz von mehr als 50 %?Die Fragen schienen komplex, aber es war wirklich einfach, die Antwort in Excel zu finden. Nur 1 Produkt, nämlich Turnschuhe, hat mehr als 2000 gekostet und wurde mit einem Rabattsatz von mehr als 20% verkauft.Wunderbar, nicht wahr? Wir haben bis jetzt einige grundlegende statistische Funktionen in MS Excel durchgenommen.
Mittlere statistische Funktionen in Excel
Wir werden hier einige der mittleren statistischen Funktionen in MS Excel besprechen, die sich auf die zentrale Tendenz und die Streuung beziehen. Diese Funktionen sind in unserem täglichen Leben als Analytiker sehr nützlich.
Mittelwertfunktion
Die häufigste Funktion, die wir in unserem täglichen Leben verwenden, ist der Durchschnitt (oder Mittelwert). Die Funktion MITTELWERT gibt einfach das arithmetische Mittel aller Zellen in einem bestimmten Bereich zurück:
- MITTELWERT(Zahl1, , …)
Aber es gibt einen einfachen Nachteil bei der Verwendung von Durchschnittswerten – sie sind anfällig für Ausreißer. Daher können sie in unserer Analyse ein sehr unrealistisches Bild zeichnen. Lassen Sie uns die durchschnittliche Anzahl der verkauften Waren herausfinden:dispersedDer Durchschnitt liegt bei ~ 365,2. Wir werden ähnliche Berechnungen auch für die Kosten durchführen.
Median-Funktion
Das Problem der Ausreißer lässt sich durch die Verwendung einer anderen Funktion für die zentrale Tendenz lösen – dem Median. Die Medianfunktion liefert den mittleren Wert des angegebenen Bereichs von Zellen. Die Syntax ist recht einfach:
- MEDIAN(Zahl1, , …)
Lassen Sie uns den Median der Anzahl der verkauften Waren in unserem Sportgeschäft ermitteln und sehen, wie nahe dieser am Durchschnittswert liegt:
Wir sehen, dass der Median bei ~ 320 liegt, was ziemlich nahe am Durchschnittswert ist. Das bedeutet, dass es keine großen Schwankungen in unseren Daten gibt. Schauen wir uns an, ob dies auch für die Kosten der Waren der Fall ist: Der Median und der Durchschnittswert für die Kosten der einzelnen Artikel schwanken sehr stark. Zum Beispiel betragen die Kosten für einen Ball 50, aber die Kosten für einen Schläger 2000 – was zu einer hohen Streuung führt.
Modusfunktion
Für numerische Werte reichen normalerweise Mittelwert und Median aus, aber was ist mit kategorischen Werten? Hier kommt der Modus ins Spiel. Modus gibt den häufigsten und wiederholten Wert im gegebenen Wertebereich zurück:
- MODE.SNGL(Zahl1,,…)
Hinweis: MODE.SNGL gibt nur einen einzelnen Wert zurück, während MODE.MULT ein Array der am häufigsten vorkommenden Werte zurückgibt.
Nun, das ist eine einfache Sache. Lassen Sie uns den am häufigsten vorkommenden Wert für den Rabatt im Sportgeschäft finden:
Der Wert für den Rabatt ist 10%.
Standardabweichungsfunktion
Die Standardabweichung ist eine der Möglichkeiten, die Streuung zu quantifizieren. Sie ist ein Maß dafür, wie weit die Werte vom Mittelwert abweichen.
Hier wird die Funktion STDEV.P verwendet, mit der die Standardabweichung auf der Grundlage der gesamten Grundgesamtheit berechnet wird, die als Argumente angegeben wird:
- STDEV.P(number1,,…)
Hinweis: Die Funktion STDEV.P geht davon aus, dass ihre Argumente die gesamte Grundgesamtheit sind. Wenn das nicht der Fall ist, können Sie die Funktion STDEV.S() verwenden.Bei einem großen Stichprobenumfang wird die Standardabweichung der Grundgesamtheit und der Stichproben annähernd ähnliche Werte liefern. Bisher haben wir Mittelwert und Median berechnet, um ein Bild von der zentralen Tendenz zu erhalten. Lassen Sie uns nun die Standardabweichung ermitteln, um den Grad der Streuung zu sehen:
Wie erwartet, ist die Standardabweichung der verkauften Menge geringer, was bedeutet, dass die Streuung geringer ist, während die Standardabweichung für die Kosten der Produkte hoch ist.
Quartilsfunktionen
Dies ist eine weitere Funktion mit zahlreichen Anwendungen in der Industrie. Sie hilft uns, die Grundgesamtheit in Gruppen zu unterteilen. QUARTILE.INC gibt das Quartil eines Datensatzes zurück, basierend auf Perzentilwerten von 0 bis einschließlich 1.
Sie können diese Funktion zum Beispiel verwenden, um die oberen 25 % Ihres Kundenstamms herauszufinden.
- QUARTILE.INC(array, quart)
Korrelationsfunktion
Die Funktion CORREL() ist mein persönlicher Favorit. Sie liefert wirklich mächtige Einblicke, die mit bloßem Auge nicht zu erkennen sind. Die CORREL-Funktion gibt den Korrelationskoeffizienten von zwei Zellbereichen zurück. Aber was ist das? Im Grunde sagt er uns, wie stark die Beziehung zwischen den beiden Variablen ist.
Hinweis: Er stellt keine Ursache-Wirkungs-Beziehung dar.
- CORREL(array1, array2)
Der Bereich des Korrelationswertes liegt zwischen -1 und 1.
Lassen Sie uns zu unserer letzten und interessantesten Frage kommen – gibt es einen Zusammenhang zwischen der Anzahl der verkauften Waren und dem Prozentsatz des Rabatts?
Nun, die Korrelation kommt auf ~0,8, was ziemlich hoch ist. Es scheint, dass diese positiv zusammenhängen – das heißt, je höher der Rabatt, desto höher die verkaufte Menge.
Schlussbemerkungen
Wir haben in diesem Artikel über 10 statistische Funktionen für Anfänger und Fortgeschrittene in MS Excel besprochen, von einfachen count() bis zu fortgeschrittenen correl(). Statistik ist eines der wichtigsten Werkzeuge in der Ausrüstung eines Analysten und Sie können viele Ihrer statistischen Ziele einfach mit Excel erreichen.
Ich empfehle Ihnen, die folgenden zusätzlichen Ressourcen in Excel durchzugehen:
- 3 anspruchsvolle Excel-Diagramme, um Ihr Analyse- und Visualisierungsportfolio zu erweitern
- 5 nützliche Excel-Tricks, um ein effizienter Analyst zu werden
Ich werde in Zukunft fortgeschrittene statistische Funktionen behandeln. Lassen Sie mich einige Ihrer Lieblings-Statistikfunktionen wissen und ich werde versuchen, sie in meine kommenden Artikel einzubauen.
Sie können diesen Artikel auch auf unserer Mobile APP lesen