10 statistische functies in Excel die elke Analytics Professional moet kennen

Overzicht

  • Microsoft Excel is een uitstekend hulpmiddel voor het leren en uitvoeren van statistische functies
  • Hier zijn 12 statistische functies in Excel die je onder de knie moet hebben voor een succesvolle analytics carrière

Let’s Excel in Statistics!

“Statistiek is de grammatica van de wetenschap.” – Karl Pearson

Laten we dat een beetje relevanter voor ons maken – Statistiek is de grammatica van “Data”-wetenschap. Je zult zien dat bijna elke succesvolle data science professional of analytics professional een solide begrip heeft van statistiek – maar betekent dat dat je een master’s degree in het onderwerp nodig hebt?

Absoluut niet!

We benaderen dit artikel volgens het beroemde Pareto Principe – 80% van de gevolgen komt voort uit 20% van de oorzaken. Daarom zullen we ons vooral richten op 20% van de concepten en functies die 80% van de tijd van pas komen! Nu is de vraag hoe je als analist aan de slag gaat met het implementeren van statistieken

Zeker, je kunt deze concepten implementeren en oefenen in programmeertalen als Python en R. Maar wacht even en denk – wat is de meest gebruikte tool in de meeste organisaties?

Het is Microsoft Excel! Eerlijk gezegd is Excel het Zwitserse zakmes voor analytics professionals dat je helpt te focussen op wat belangrijk is (statistieken in ons geval) en de rest van de berekeningen en aanpassingen zelf afhandelt.

Dit artikel is voor iedereen die zijn reis begint in de statistiek met behulp van Excel. We zullen 10 belangrijke statistische functies in Excel gebruiken om vragen te beantwoorden voor een dummy sportbedrijf, Khelo, terwijl we hun gegevens doornemen.

Als je een beginner bent in de wereld van analytics en Excel, raad ik je ten zeerste aan deze gratis cursussen door te nemen:

  • Inleiding tot Business Analytics
  • Microsoft Excel: Formules & Functies

Hoe gaan we deze 1o statistische functies in Excel benaderen

Ik heb deze statistische functies in Excel onderverdeeld in twee categorieën:

  • Basis statistische functies
  • Middelse statistische functies

Laten we beginnen!

Inzicht in de gegevens en de probleemstelling

We gaan een paar belangrijke vragen oplossen over ons dummybedrijf voor sportuitrusting en -kleding – Khelo. Dit zijn de kolommen die we hebben:

  • Uitrusting
  • Aantal verkochte artikelen
  • Kostprijs van elk artikel
  • Korting %
  • Opbrengst

In de loop van dit artikel zullen we de volgende vragen beantwoorden:

  1. Hoeveel artikelen zijn met korting?
  2. Hoeveel artikelen/artikelen worden er door de winkel verkocht?
  3. Wat is het aantal producten dat zonder korting wordt verkocht?
  4. Worden er producten verkocht die meer dan 2000 kosten, samen met een kortingspercentage van meer dan 50%?
  5. Wat is het gemiddelde aantal verkochte producten?
  6. Wat is de mediaan van het aantal verkochte producten?
  7. Wat is het meest voorkomende kortingspercentage?
  8. Wat is de standaardafwijking van het aantal verkochte producten?
  9. Is er een verband tussen het aantal verkochte producten en het kortingspercentage?

Basis Statistische Functies in Excel

MS Excel biedt een scala aan handige statistische functies. Laten we beginnen met enkele van de basisfuncties, maar toch zeer krachtig. Eerlijk gezegd zult u merken dat u de statistische basisfuncties 90% van de tijd gebruikt en dat de overige 10% van uw tijd in beslag wordt genomen door intermediaire en geavanceerde functies.

We zullen het hier vooral hebben over de verschillende soorten telfuncties. Deze lijken erg op andere functies zoals som, max, min, gemiddelde.

Telfunctie

We gebruiken de telfunctie wanneer we het aantal cellen moeten tellen dat een getal bevat. Onthoud ALLEEN GETALLEN! Laten we de functie eens bekijken:

  • COUNT(value1, , …)

Dus, laten we eens proberen het antwoord op onze eerste vraag te vinden – Hoeveel artikelen waren afgeprijsd?

Er zijn 11 producten met korting.

Counta Functie

Terwijl de count functie alleen de numerieke waarden telt, telt de COUNTA functie alle cellen in een bereik die niet leeg zijn. De functie is handig voor het tellen van cellen die elk type informatie bevatten, inclusief foutwaarden en lege tekst.

  • COUNTA(waarde1, , …)

We zullen de tweede vraag beantwoorden met de functie counta, aangezien deze in staat is alle niet-lege waarden te tellen – Hoeveel artikelen/uitrustingen zijn er verkocht door de winkel? Het totale aantal artikelen dat door de winkel is verkocht, is 13.

Tel leeg

De functie COUNTBLANK telt het aantal lege cellen in een bereik van cellen. Cellen met formules die lege tekst opleveren, worden ook geteld, maar cellen met nulwaarden worden niet meegeteld. Dit is een geweldige functie voor het samenvatten van lege cellen tijdens het analyseren van gegevens.

  • COUNTBLANK(bereik)

Het samenvatten van lege cellen is de vereiste voor onze derde vraag – Welke producten staan niet in de kortingssectie? Laten we de functie toepassen!

Er zijn slechts 2 artikelen die niet met korting zijn.

Countifs Functie

Countifs zijn een van de meest gebruikte statistische functies in Excel. De functie COUNTIFS past een of meer voorwaarden toe op de cellen in het opgegeven bereik en retourneert alleen de cellen die aan alle voorwaarden voldoen.

  • COUNTIFS(criteria_bereik1, criteria1, …)

Opmerking: Elk nieuw bereik moet hetzelfde aantal rijen en kolommen hebben als het argument criteria_bereik1. Deze functie lijkt perfect om de vierde vraag te beantwoorden – Zijn er producten verkocht die meer dan 2000 hebben gekost met een kortingspercentage van meer dan 50%? De vraag leek complex, maar het was heel eenvoudig om het antwoord in Excel te vinden. Slechts 1 product, namelijk sneakers, kostte meer dan 2000 en werd verkocht met een discontovoet van meer dan 20%.Prachtig, nietwaar? We hebben tot nu toe een aantal statistische basisfuncties in MS Excel doorgenomen. Laten we nu eens kijken naar de intermediaire statistische functies.

Intermediate Statistische Functies in Excel

We zullen hier enkele van de intermediaire statistische functies in MS Excel bespreken die betrekking hebben op centrale tendens en spreiding. Deze functies zijn zeer nuttig in ons dagelijks leven als analist.

Gemiddelde functie

De meest voorkomende functie die we gewoonlijk in ons dagelijks leven gebruiken is het gemiddelde (of gemiddelde). De functie AVERAGE geeft eenvoudigweg het rekenkundig gemiddelde van alle cellen in een bepaald bereik:

  • AVERAGE(getal1, , …)

Maar er is één nadeel aan het gebruik van gemiddelden: ze zijn gevoelig voor uitschieters. Daarom kunnen ze een zeer onrealistisch beeld schetsen in onze analyse. Laten we het gemiddelde aantal verkochte goederen bepalen:dispersedHet gemiddelde komt uit op ~ 365,2. We zullen soortgelijke berekeningen ook voor de kosten uitvoeren.

Mediaanfunctie

Het probleem van uitschieters kan worden opgelost door een andere functie voor de centrale tendens te gebruiken – de mediaan. De functie mediaan geeft de middelste waarde van het opgegeven bereik van cellen. De syntaxis is vrij eenvoudig:

  • MEDIAN(nummer1, , …)

Laten we de mediaan vinden van het aantal verkochte goederen in onze sportwinkel en kijken hoe dicht deze bij onze gemiddelde waarde ligt:

We zien dat de mediaan uitkomt op ~ 320, wat vrij dicht bij de gemiddelde waarde is. Dit betekent dat er niet veel fluctuatie is in onze gegevens. Laten we eens kijken of dit het geval is voor de kosten van goederen:De mediaan en de gemiddelde waarde voor de kosten van elk artikel variëren sterk. De kosten van een bal zijn bijvoorbeeld 50, maar die van een knuppel 2000 – wat tot een grote spreiding leidt.

Modusfunctie

Voor numerieke waarden zijn het gemiddelde en de mediaan meestal voldoende, maar hoe zit het met categorische waarden? Hier komt de modus in beeld. De modus geeft de meest frequente en herhaalde waarde in de gegeven reeks waarden:

  • MODE.SNGL(number1,,…)

Opmerking: MODE.SNGL geeft slechts een enkele waarde, terwijl MODE.MULT een matrix van meest voorkomende waarden geeft.

Wel, dit is een eenvoudige. Laten we de meest voorkomende kortingswaarde vinden die door de sportwinkel wordt gegeven:

Deze kortingswaarde is 10%.

Standaardafwijkingsfunctie

Standaardafwijking is een van de manieren om spreiding te kwantificeren. Het is een maat voor de mate waarin waarden van de gemiddelde waarde afwijken.

Hiervoor gebruiken we de functie STDEV.P die wordt gebruikt om de standaardafwijking te berekenen op basis van de gehele populatie die als argumenten wordt gegeven:

  • STDEV.P(number1,,…)

Opmerking: De STDEV.P-functie gaat ervan uit dat de argumenten de gehele populatie zijn. Als dat niet het geval is, kunt u de functie STDEV.S() gebruiken.Voor een grote steekproefgrootte zal de standaardafwijking van de populatie en de steekproeven ongeveer vergelijkbare waarden opleveren. Eerder hebben we het gemiddelde en de mediaan berekend om een beeld te krijgen van de centrale tendens. Laten we de standaardafwijking berekenen om de mate van spreiding te zien:
Zoals verwacht is de standaardafwijking van de verkochte hoeveelheid kleiner, wat betekent dat de spreiding minder is, terwijl de standaardafwijking voor de kosten van producten hoog is.

Kwartielenfuncties

Dit is weer een functie met overvloedige toepassingen in de industrie. Ze helpt ons de bevolking in groepen te verdelen. De functie QUARTILES.INC geeft het kwartiel van een gegevensverzameling, gebaseerd op percentielwaarden van 0 tot en met 1.

U kunt deze functie bijvoorbeeld gebruiken om de top 25% van uw klantenbestand te achterhalen.

  • QUARTILE.INC(array, quart)

Correlatiefunctie

De CORREL()-functie is mijn persoonlijke favoriet. Deze functie biedt zeer krachtige inzichten die met het blote oog niet te zien zijn. De CORREL-functie geeft de correlatiecoëfficiënt van twee celbereiken. Maar wat is dat? Het vertelt ons in feite hoe sterk de relatie is tussen de twee variabelen.

Opmerking: het geeft geen oorzaak-gevolgrelatie weer.

  • CORREL(array1, array2)

Het bereik van de correlatiewaarde ligt tussen -1 en 1.

Laten we eens kijken naar onze laatste en meest interessante vraag – is er een verband tussen het aantal verkochte goederen en het kortingspercentage?

Wel, de correlatie komt uit op ~0,8, wat behoorlijk hoog is. Het lijkt erop dat deze positief gerelateerd zijn – wat betekent: meer korting, meer verkochte hoeveelheid.

Eindnoten

We hebben in dit artikel meer dan 10 beginnende en gevorderde statistische functies in MS Excel besproken, variërend van eenvoudige count() tot geavanceerde correl(). Statistiek is een van de belangrijkste gereedschappen in de uitrusting van een analist en u kunt veel van uw statistische doelen bereiken door simpelweg Excel te gebruiken.

Ik raad u aan de volgende aanvullende bronnen in Excel door te nemen:

  • 3 ambitieuze Excel-grafieken om uw Analytics- en Visualisatieportfolio een boost te geven
  • 5 handige Excel-trucs om een efficiënte analist te worden

Ik zal in de toekomst geavanceerde statistische functies behandelen. Laat me weten wat je favoriete statistische functies zijn en ik zal proberen ze in mijn komende artikelen te verwerken.

Je kunt dit artikel ook lezen op onze mobiele APP

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *