Overview
- Microsoft Excel est un excellent outil pour apprendre et exécuter des fonctions statistiques
- Voici 12 fonctions statistiques dans Excel que vous devriez maîtriser pour une carrière réussie dans l’analytique
Let’s Excel in Statistics !
« La statistique est la grammaire de la science. » – Karl Pearson
Rendons cela un peu plus pertinent pour nous – les statistiques sont la grammaire de la science des » données « . Vous remarquerez que presque tous les professionnels de la science des données ou de l’analytique qui réussissent ont une solide compréhension des statistiques – mais cela signifie-t-il que vous avez besoin d’un master en la matière ?
Absolument pas !
Nous aborderons cet article en utilisant le célèbre principe de Pareto – 80 % des conséquences proviennent de 20 % des causes. Par conséquent, nous nous concentrerons principalement sur 20% des concepts et fonctions qui sont utiles dans 80% des cas ! Maintenant, la question en tant qu’analyste est de savoir comment commencer à mettre en œuvre les statistiques ?
Bien sûr, vous pouvez mettre en œuvre et pratiquer ces concepts dans des langages de programmation comme Python et R. Mais retenez vos chevaux une seconde et réfléchissez – quel est l’outil le plus couramment utilisé dans la plupart des organisations ?
C’est Microsoft Excel ! Honnêtement, Excel est le couteau suisse des professionnels de l’analyse qui vous aide à vous concentrer sur ce qui est important (les statistiques dans notre cas) et gère lui-même le reste des calculs et des personnalisations.
Cet article s’adresse à tous ceux qui commencent leur voyage dans les statistiques en utilisant Excel. Nous utiliserons 10 fonctions statistiques clés dans Excel pour répondre aux questions d’une entreprise de sport fictive, Khelo, tout en parcourant leurs données.
Si vous êtes un débutant dans le monde de l’analytique et d’Excel, je vous recommande vivement de passer par ces cours gratuits :
- Introduction à l’analytique d’entreprise
- Microsoft Excel : Formules & Fonctions
Comment nous allons aborder ces 1o fonctions statistiques dans Excel
J’ai divisé ces fonctions statistiques dans Excel en deux catégories :
- Fonctions statistiques de base
- Fonctions statistiques intermédiaires
Commençons !
Comprendre les données et l’énoncé du problème
Nous allons résoudre quelques questions clés sur notre entreprise fictive d’équipements et de vêtements de sport – Khelo. Voici les colonnes dont nous disposons :
- Équipement
- Nombre d’articles vendus
- Coût de chaque article
- Discompte %
- Revenu
Au cours de cet article, nous répondrons aux questions suivantes :
- Combien d’articles bénéficient d’un rabais ?
- Combien d’articles/équipements sont vendus par le magasin ?
- Quel est le nombre de produits vendus sans remise ?
- Y a-t-il des produits vendus ayant un coût supérieur à 2000 accompagné d’un taux de remise supérieur à 50% ?
- Quel est le nombre moyen de produits vendus ?
- Quelle est la médiane du nombre de produits vendus ?
- Quel est le pourcentage de remise le plus fréquent ?
- Quel est l’écart type du nombre de produits vendus ?
- Y a-t-il une relation entre le nombre de produits vendus et le pourcentage de remise ?
Fonctions statistiques de base dans Excel
MS Excel fournit un éventail de fonctions statistiques utiles. Commençons par quelques-unes des fonctions de base mais extrêmement puissantes. Honnêtement, vous constaterez que vous utilisez les fonctions statistiques de base 90 % du temps et que les 10 % restants sont occupés par les fonctions intermédiaires et avancées.
Nous parlerons principalement des différents types de fonctions de comptage ici. Celles-ci sont très similaires à d’autres fonctions telles que somme, max, min, moyenne.
Fonction de comptage
Nous utilisons la fonction de comptage lorsque nous devons compter le nombre de cellules contenant un nombre. Rappelez-vous : SEULEMENT DES NOMBRES ! Voyons la fonction :
- COUNT(valeur1, , …)
Donc, essayons de trouver la réponse à notre première question – Combien d’articles étaient en réduction ?
Il y a 11 produits en réduction.
Fonction COUNTA
Alors que la fonction count ne compte que les valeurs numériques, la fonction COUNTA compte toutes les cellules d’une plage qui ne sont pas vides. Cette fonction est utile pour compter les cellules contenant tout type d’information, y compris les valeurs d’erreur et le texte vide.
- COUNTA(valeur1, , …)
Nous répondrons à la deuxième question en utilisant la fonction counta puisqu’elle est capable de compter toutes les valeurs non vides – Combien d’articles/pièces d’équipement sont vendus par le magasin ? Le nombre total d’articles vendus par le magasin est de 13.
Countblank
La fonction COUNTBLANK compte le nombre de cellules vides dans une plage de cellules. Les cellules avec des formules qui renvoient du texte vide sont également comptées ici, mais les cellules avec des valeurs nulles ne sont pas comptées. C’est une excellente fonction pour résumer les cellules vides lors de l’analyse de n’importe quelles données.
- COUNTBLANK(plage)
Résumer les cellules vides est la condition pour notre troisième question – Quels sont les produits qui ne sont pas dans la section des réductions ? Appliquons la fonction !
Il n’y a que 2 articles qui ne sont pas en réduction.
Fonction COUNTIFS
Les COUNTIFS sont l’une des fonctions statistiques les plus utilisées dans Excel. La fonction COUNTIFS applique une ou plusieurs conditions aux cellules de la plage donnée et renvoie uniquement les cellules qui remplissent toutes les conditions.
- COUNTIFS(plage_critères1, critères1, …)
Remarque : Chaque nouvelle plage doit avoir le même nombre de lignes et de colonnes que l’argument plage_critères1. Les plages ne doivent pas nécessairement être adjacentes les unes aux autres.Cette fonction semble parfaite pour répondre à la quatrième question – Y a-t-il des produits vendus ayant un coût supérieur à 2000 accompagné d’un taux de remise supérieur à 50% ? Les questions semblaient complexes mais il était vraiment facile de trouver la réponse dans Excel. Un seul produit, à savoir des baskets, a coûté plus de 2000 et a été vendu avec un taux de remise supérieur à 20%. Jusqu’à présent, nous avons passé en revue quelques fonctions statistiques de base dans MS Excel. Ensuite, jetons un coup d’œil aux fonctions statistiques intermédiaires.
Fonctions statistiques intermédiaires dans Excel
Nous allons aborder ici certaines des fonctions statistiques intermédiaires dans MS Excel liées à la tendance centrale et à la dispersion. Ces fonctions sont très utiles dans notre quotidien d’analyste.
Fonction moyenne
La fonction la plus courante que nous utilisons habituellement dans notre vie quotidienne est la moyenne (ou average). La fonction MOYENNE renvoie simplement la moyenne arithmétique de toutes les cellules d’une plage donnée :
- Moyenne(nombre1, , …)
Mais il y a un inconvénient simple à l’utilisation des moyennes : elles sont sujettes aux valeurs aberrantes. Par conséquent, elles peuvent dépeindre une image très peu réaliste dans notre analyse. Déterminons le nombre moyen de marchandises vendues : disperséLa moyenne s’établit à ~ 365,2. Nous ferons des calculs similaires pour le coût également.
Fonction médiane
Le problème des valeurs aberrantes peut être résolu en utilisant une autre fonction pour la tendance centrale – la médiane. La fonction médiane renvoie la valeur médiane de la plage de cellules donnée. La syntaxe est assez simple:
- MEDIAN(nombre1, , …)
Trouvons la médiane du nombre d’articles vendus dans notre magasin de sport et voyons à quel point elle est proche de notre valeur moyenne:
Nous voyons que la médiane ressort à ~ 320 ce qui est assez proche de la valeur moyenne. Cela signifie qu’il n’y a pas beaucoup de fluctuation dans nos données. Voyons si c’est le cas pour le coût des marchandises:La médiane et la valeur moyenne du coût de chaque article varient beaucoup. Par exemple, le coût d’une balle est de 50 mais celui d’une batte est de 2000 – d’où une forte dispersion.
Fonction mode
Pour les valeurs numériques, la moyenne et la médiane habituellement, suffisent mais qu’en est-il des valeurs catégorielles ? C’est là que le mode entre en jeu. Mode renvoie la valeur la plus fréquente et répétée dans la plage de valeurs donnée :
- MODE.SNGL(nombre1,,…)
Remarque : MODE.SNGL ne renvoie qu’une seule valeur alors que MODE.MULT renvoie un tableau des valeurs les plus fréquentes.
Bien, celle-ci est simple. Trouvons la valeur de remise la plus fréquente donnée par le magasin de sport :
Cette valeur de remise est de 10%.
Fonction d’écart type
L’écart type est l’une des façons de quantifier la dispersion. Il s’agit d’une mesure de la dispersion des valeurs par rapport à la valeur moyenne.
Ici, nous utiliserons la fonction STDEV.P qui sert à calculer l’écart type sur la base de la population entière donnée en arguments :
- STDEV.P(nombre1,,…)
Remarque : la fonction STDEV.P suppose que ses arguments sont la population entière. Si ce n’est pas le cas, vous pouvez utiliser la fonction STDEV.S().Pour un échantillon de grande taille, l’écart-type de la population et des échantillons renverra des valeurs approximativement similaires. Précédemment, nous avons calculé la moyenne et la médiane pour avoir une image de la tendance centrale. Trouvons l’écart-type pour voir le niveau de dispersion :
Comme prévu, l’écart-type de la quantité vendue est moindre, ce qui signifie que la dispersion est moindre alors que l’écart-type du coût des produits est élevé.
Fonctions de quartiles
C’est encore une autre fonction aux applications abondantes dans l’industrie. Elle nous aide à diviser la population en groupes. La fonction QUARTILES.INC renvoie le quartile d’un ensemble de données, en fonction des valeurs de percentile de 0 à 1, inclusivement.
Par exemple, vous pouvez utiliser cette fonction pour connaître les 25 % supérieurs de votre clientèle.
- QUARTILE.INC(tableau, quart)
Fonction de corrélation
La fonction CORREL() est ma favorite personnelle. Elle fournit des aperçus vraiment puissants qui ne sont pas évidents à l’œil nu. La fonction CORREL renvoie le coefficient de corrélation de deux plages de cellules. Mais qu’est-ce que c’est ? Elle nous indique essentiellement la force de la relation entre les deux variables.
Note : elle ne dépeint aucune relation de cause à effet.
- CORREL(tableau1, tableau2)
La plage de valeur de corrélation est comprise entre -1 et 1.
Passons à notre dernière question, la plus intéressante : existe-t-il une relation entre le nombre de marchandises vendues et le pourcentage de remise ?
Eh bien, la corrélation ressort à ~0,8, ce qui est plutôt élevé. Il semble que ceux-ci soient positivement liés – ce qui signifie que plus le rabais est important, plus la quantité vendue est importante.
Notes de fin
Nous avons abordé plus de 10 fonctions statistiques débutantes et intermédiaires dans MS Excel dans cet article allant du simple count() au correl() avancé. Les statistiques sont l’un des outils les plus importants dans le kit d’un analyste et vous pouvez atteindre beaucoup de vos objectifs statistiques en utilisant simplement Excel.
Je vous recommande de parcourir les ressources supplémentaires suivantes dans Excel:
- 3 Ambitious Excel Charts to Boost your Analytics and Visualization Portfolio
- 5 Useful Excel Tricks to Become an Efficient Analyst
Je couvrirai les fonctions statistiques avancées à l’avenir. Faites-moi part de certaines de vos fonctions statistiques préférées et j’essaierai de les intégrer dans mes prochains articles.
Vous pouvez également lire cet article sur notre APP mobile.