Overview
- Microsoft Excelは、統計関数を学び、実行するための優れたツールです
- アナリティクスのキャリアを成功させるためにマスターすべき、Excelの12の統計関数を紹介します
Let’s Excel in Statistics!
“統計学は科学の文法である。” – カール・ピアソン
この言葉をもう少し私たちに関連づけてみると、統計学は「データ」サイエンスの文法であると言えます。
そんなことはありません!
この記事では、有名な「パレートの原則」(80%の結果は20%の原因から生まれる)を使ってアプローチします。 したがって、80%の確率で役立つ20%の概念や機能に焦点を当てていきたいと思います。
確かに、PythonやRのようなプログラミング言語でこれらの概念を実装して練習することはできますが、ちょっと待ってください。
この記事は、Excelを使って統計学の世界に足を踏み入れようとしているすべての人のためのものです。
もしあなたがアナリティクスとエクセルの世界の初心者であれば、以下の無料コースを受講することを強くお勧めします:
- Introduction to Business Analytics
- Microsoft Excel:
- & 関数
How We’ll Approach These 1o Statistical Functions in Excel
Excelの統計関数を2つのカテゴリーに分けてみました:
- Basic statistical functions
- Intermediate statistical functions
始めましょう!
データと問題文の理解
私たちは、ダミーのスポーツ用品・アパレル企業であるKhelo社に関するいくつかの重要な質問を解決します。
- 装備品
- 販売アイテム数
- 各アイテムのコスト
- 割引率
- 収益
この記事の中で、以下の質問に答えていきます。
Basic Statistical Functions in Excel
MS Excelには、便利な統計関数が数多く用意されています。 まずは、基本的でありながら非常に強力な関数をご紹介します。
ここでは、主に、さまざまな種類のカウント関数について説明します。
カウント関数
ある数字を含むセルの数を数える必要がある場合、カウント関数を使用します。 数字だけであることを忘れないでください。
- COUNT(value1, , …)
では、最初の質問である「何個の商品が割引されていたか」の答えを探してみましょう。
値引きされている商品は11個あります。
COUNTA関数
count関数が数値のみを数えるのに対し、COUNTA関数は範囲内の空ではないすべてのセルを数えます。
- COUNTA(value1, , …)
空ではない値をすべて数えることができるので、counta関数を使って2つ目の質問に答えます – How many items/pieces of equipment are sold by the store?お店で販売されている商品の総数は13個です。
Countblank
COUNTBLANK関数は、セルの範囲内で空のセルの数を数えます。 ここでは、空のテキストを返す数式を持つセルもカウントされますが、値がゼロのセルはカウントされません。
- COUNTBLANK(range)
空のセルを集計することは、3つ目の質問である「割引コーナーにない商品は何か? それでは、この機能を使ってみましょう。
値引きされていない商品は2つしかありません
COUNTIFS関数
COUNTIFSは、Excelで最も使用される統計関数の1つです。 COUNTIFS関数は、指定された範囲のセルに1つ以上の条件を適用し、すべての条件を満たすセルのみを返します。
- COUNTIFS(cliteria_range1, criteria1, …)
注意: すべての新しい範囲は、cliteria_range1 引数と同じ数の行と列を持たなければなりません。 この関数は、4つ目の質問 – コストが2000を超え、割引率が50%を超える製品が販売されているか – に答えるのに最適だと思われます。この質問は複雑に見えますが、Excelで答えを見つけるのはとても簡単でした。 たった1つの商品、すなわちスニーカーは、2000円以上の価格で20%以上の割引率で販売されていました。 ここまでで、MS Excelの基本的な統計関数をいくつか見てきました。
Intermediate Statistical Functions in Excel
ここでは、MS Excel の中間的な統計関数のうち、中心傾向と分散に関連するものについて説明します。
平均関数
私たちが日常的に使用する最も一般的な関数は、平均です。 AVERAGE 関数は、指定された範囲のすべてのセルの算術平均を返します:
- AVERAGE(number1, , …)
しかし、平均を使用することには 1 つの単純な欠点があります。 そのため、分析の際に非常に非現実的な絵を描いてしまう可能性があります。 平均販売個数を求めてみましょう。平均値は~365.2個となります。
中央値関数
外れ値の問題は、中央傾向を表す別の関数である中央値を使用することで解決できます。 中央値関数は、与えられたセルの範囲の中央値を返します。
- MEDIAN(number1, , …)
スポーツ店での商品販売数の中央値を求め、平均値にどれだけ近いかを見てみましょう
中央値は ~ 320 となり、平均値にかなり近いことがわかります。 これは、データに大きな変動がないことを意味します。 各アイテムのコストの中央値と平均値は非常に異なっています。 たとえば、ボールのコストは50ですが、バットのコストは2000です。その結果、分散性が高くなっています。
モード関数
数値の場合は、通常、平均値と中央値で十分ですが、カテゴリー値の場合はどうでしょうか。 ここでは、モードが登場します。
- MODE.SNGL(number1,,…)
注:MODE.SNGLは単一の値のみを返すのに対し、MODE.MULTは最もよく出現する値の配列を返します。
さて、これは簡単な例です。
さて、これは簡単なものです。スポーツ店で最も頻繁に与えられる割引値を求めてみましょう:
この割引値は10%です。
ここでは、引数として与えられた母集団全体に基づいて標準偏差を計算するために使用されるSTDEV.P関数を使用します:
- STDEV.P(number1,,…)
注意:STDEV.P関数は、その引数が母集団全体であることを想定しています。 サンプルサイズが大きい場合、母集団とサンプルの標準偏差はほぼ同じような値を返します。 前回までに、平均値と中央値を計算して、中心傾向を把握しました。
四分位値関数
これは、業界で豊富なアプリケーションを持つもう1つの関数です。 母集団をグループに分けるのに役立ちます。 QUARTILES.INC は、0 から 1 までのパーセンタイル値に基づいて、データセットの四分位を返します。
例えば、この関数を使用して、顧客ベースの上位 25% を見つけることができます。
- QUARTILE.INC(array, quart)
相関関数
CORREL()関数は、私の個人的なお気に入りです。 肉眼ではわからない、実に強力な洞察力を提供してくれます。 CORREL 関数は、2 つのセル範囲の相関係数を返します。 しかし、それは何でしょうか?
注意:因果関係を示すものではありません。
- CORREL(array1, array2)
相関値の範囲は-1~1です。
最後の、そして最も興味深い質問に向かいましょう – 商品販売数と割引率の間に関係はありますか?
さて、相関は ~0.8 となり、かなり高い値となりました。
End Notes
この記事では、単純な count() から高度な correl() まで、10 以上の MS Excel の初級および中級の統計関数について説明しました。
Excelの次の追加リソースに目を通すことをお勧めします。
- 3 Ambitious Excel Charts to Boost your Analytics and Visualization Portfolio
- 5 Useful Excel Tricks to Become an Efficient Analyst
今後、高度な統計関数についても取り上げていきたいと思います。
この記事はモバイルアプリでもご覧いただけます。