- 多変量解析の入門編
- 歴史
- 概要li
- 長所と短所
- 多変量解析手法の分類図
- 多変量分散分析と共分散分析
- 多変量解析の目的
- モデル構築のプロセス
- モデルの前提条件
- まとめ
寄稿者。 Harsha Nimkar
LinkedInのプロフィールです。 https://www.linkedin.com/in/harsha-nimkar-8b117882/
はじめに
多変量とは、1つの結果をもたらす複数の従属変数を含むことを意味します。 これは、現実世界の問題の大半が多変量であることを説明しています。 例えば、季節だけでその年の天気を予測することはできません。 汚染、湿度、降水量などの複数の要因があるからです。 ここでは、多変量解析とその歴史、さまざまな分野での応用について紹介します。
多変量解析の歴史
1928年、Wishartは論文を発表しました。
1930年代に入ると、R.A.Fischer、Hotelling、S.N.Roy、B.L.Xuらが多変量解析の基礎的な理論研究を重ねました。 当時、多変量解析は、心理学、教育、生物学などの分野で広く利用されていました。
1950年代半ば、コンピュータの登場と普及に伴い、多変量解析は地質学、気象学、医学、社会、科学の分野で大きな役割を果たすようになりました。 医学、社会、科学。 それ以降、新しい理論や手法が提案され、実践によって常に検証されると同時に、より多くの応用分野が開拓されていきました。 このようにして、私たちは多変量解析の手法を応用して、かなり複雑な統計解析を行うことができるようになりました。
多変量解析について。 概要
会社の売上を予測するプロジェクトがあなたに割り当てられたとします。 売上に影響を与える要因は「X」であると単純に言うことはできません。
売上に影響を与える複数の側面または変数があることがわかっています。 売上に大きな影響を与える変数を分析するには、多変量解析でなければわかりません。 そして、ほとんどの場合、それは1つの変数だけではありません。
ご存知のように、売上高は、製品のカテゴリー、生産能力、地理的な位置、マーケティングの努力、市場におけるブランドの存在、競合他社の分析、製品のコスト、その他の複数の変数に左右されます。 売上はほんの一例で、この研究はほとんどの分野のどのセクションでも実施可能です。
多変量解析は、ヘルスケアなどの多くの業界で広く使われています。 最近のCOVID-19のイベントでは、データサイエンティストのチームが、2020年7月末までにデリーでは5lakh以上のCOVID-19患者が発生すると予測しました。 この分析は、政府の決定、国民の行動、人口、職業、公共交通機関、医療サービス、コミュニティの総合的な免疫力など、複数の変数に基づいて行われました。
ライアソン大学のMurtaza Haider氏による、アパートの海岸や、コストの増加や減少につながるものについてのデータ分析研究も、多変量解析に基づいています。 その研究によると、大きな要因の一つは交通インフラでした。 人々は交通の便が良い場所に家を買おうと考えており、分析チームによると、これは調査開始時にはあまり考えられていなかった変数の一つです。
多変量解析は、探索的データ解析の一部です。
多変量解析には20種類以上の方法がありますが、どの方法が最適かは、データの種類や解決しようとしている問題によって異なります。
多変量解析(MVA)とは、2種類以上の測定や観察を含むデータを分析するための統計的手順です。 また、2つ以上の従属変数を他の変数と同時に分析する問題を解決することを意味する場合もあります。
多変量解析のメリット・デメリット
メリットh4
- 多変量解析の主な利点は、従属変数の変動に影響を与える独立変数の複数の要因を考慮するため、導き出される結論がより正確になることです。 導き出される結論がより正確であることです。
- 結論はより現実的で、現実の状況に近いものになります。
短所
- MVA の主な短所は、満足のいく結論を得るためにかなり複雑な計算を必要とすることです。
- 多数の変数に対する多数の観測値を収集して集計する必要があり、かなり時間のかかるプロセスです。
多変量解析手法の分類図
適切な多変量解析手法の選択は以下の点によります
a) 変数は独立分類と従属分類に分かれていますか?
b) Yesの場合、1つの分析ではいくつの変数が従属変数として扱われますか?
c) 従属と独立の両方の変数はどのように測定されますか
多変量解析技術は、次の2つの大まかなカテゴリに分類できます。 この分類は、「関係する変数が互いに依存しているかどうか」という質問に依存します。
答えが「はい」の場合、「依存性法」があります。
依存性がある場合は「依存法」、ない場合は「相互依存法」があります。
依存性の手法。 Dependence techniqueは多変量解析手法の一種で、1つ以上の変数が従属変数として特定でき、残りの変数が独立変数として特定できる場合に使用されます。
Also Read: ビッグデータ分析とは
重回帰
重回帰分析-重回帰は、単純な線形回帰を拡張したものです。 これは、2つ以上の他の変数の値に基づいて、ある変数の値を予測したい場合に使用されます。 予測したい変数は、従属変数と呼ばれます(または、結果変数、目標変数、基準変数と呼ばれることもあります)。 重回帰では、独立変数ごとに複数の「x」変数を使用します。 (x1)1, (x2)1, (x3)1, Y1)
合わせてお読みください。 機械学習における線形回帰
コンジョイント分析
「コンジョイント分析」とは、市場調査に用いられる調査ベースの統計手法で、人々が個々の製品やサービスを構成する異なる属性(特徴、機能、利点)をどのように評価しているかを判断するのに役立ちます。 コンジョイント分析の目的は、政策や製品・サービスを動かすエンドユーザーの選択や意思決定を明らかにすることにあります。
コンジョイント分析は、新製品に対する消費者の反応や、広告の受容性、サービスの設計などをテストする際に頻繁に使用されており、マーケティング、製品管理、オペレーションズ・リサーチなど様々な分野で活用されています。
コンジョイント分析技術は、多属性組成モデリング、離散的選択モデリング、または表明選好研究と呼ばれることもあり、意思決定の体系的な分析に使用されるトレードオフ分析ツールのより広いセットの一部です。
複数のコンジョイント技法がありますが、そのうちのいくつかはCBC (Choice-based conjoint)またはACBC (Adaptive CBC)です。
多重判別分析
判別分析の目的は、調査対象の変数間の差を最大化する変数の線形結合を見つけることによって、予測変数のグループからサンプルのグループメンバーシップを決定することです。
判別分析の目的は、変数間の差を最大化するような変数の線形結合を見つけることで、予測変数群からサンプルのグループメンバーシップを決定することです。
判別分析では、従属変数のグループ間を最もよく判別する独立変数の線形結合として式を導き出します。 この線形結合は判別関数と呼ばれています。 各独立変数に割り当てられた重みは、すべての変数間の相互関係に対して補正されます。
判別式。
F = β0 + β1X1 + β2X2 + … + βpXp + ε
ここで、Fは従属変数の線形結合によって形成される潜在変数、X1, X2,… XPはp個の独立変数、εは誤差項、β0, β1, β2,…, βpは判別係数である。
線形確率モデル
線形確率モデル(LPM)は、結果変数が2値で、1つまたは複数の説明変数が結果を予測するために使用される回帰モデルです。 説明変数は、それ自体が二値であったり、連続であったりします。
人が死んだかどうか、腰を痛めたかどうか、高血圧か糖尿病かなど、二値の結果はどこにでもあります。
私たちは通常、説明変数が与えられたときに、二値の結果の確率がどうなるかを理解したいと思っています。
私たちは実際にそのために線形モデルを使うことができます。 Y が指標またはダミー変数である場合、E は X が与えられたときの 1 の割合であり、これは X が与えられたときの Y の確率と解釈されます。
次に、パラメータを、Xが1単位変化したときのYの確率の変化、またはXが少し変化したときのYの確率の変化と解釈することができます。 をモデル化した場合、β1は年齢が1年増えたときの死亡確率の変化と解釈できます
多変量分散分析と共分散
多変量分散分析(MANOVA)は、一般的な分散分析(ANOVA)を拡張したものです。 ANOVAでは、単一の応答変数におけるさまざまなグループの平均値の違いが調査されます。 MANOVAでは,応答変数の数は,2つ以上に増加します. 仮説は,グループ平均のベクトルの比較に関するものです. MANOVAは,1つまたは複数の因子(それぞれ2つ以上の水準を持つ)と2つまたは複数の従属変数を持つ.
正準相関分析
正準相関分析は、2組の変数間の線形関係の研究です。
CCAは2つの典型的な目的に使用されます:-
- データの削減
- データの解釈
1つのセット(p)の変数と2つ目のセット(q)の変数の間のすべての相関を計算することができますが、pqが大きい場合は解釈が困難です。
Canonical Correlation Analysis (正準相関分析) は、関係の主要な側面を維持しながら、より少ない数の統計量に関係をまとめることができます。 ある意味、正準相関の動機は主成分分析と非常によく似ています。
Structural Equation Modelling
構造方程式モデリングは、構造的関係を分析するために使用される多変量統計分析技術です。 データ分析のための非常に広範で柔軟なフレームワークであり、単一の手法というよりは、関連する手法のファミリーと考えたほうがよいでしょう。
単一の分析におけるSEMは、一連の従属および独立した構成要素間の仮定された因果関係、すなわち構造モデルの検証と、観測された項目(測定値)の期待される潜在変数(構成要素)に対する負荷量、すなわち測定モデルの検証を評価することができます。
相互依存の技法
相互依存の技法とは、変数が従属か独立かのどちらかに分類できない関係のことです。
変数に特定の分布を明示的に仮定することなく、変数や対象間の関係を解明することを目的としています。 このアイデアは、変数について(非常に)強い仮定をすることなく、データのパターンを記述することです。
因子分析
因子分析は、多くの変数のデータを少数の変数に凝縮する方法です。 そのため、「次元の削減」とも呼ばれることがあります。 相関性の高い変数をグループ化します。 因子分析には、主成分分析や共通因子分析などの手法があります。
この種の手法は、他のモデルを使用する前にデータを変換する前処理ステップとして使用されます。
この種の手法は、他のモデルを使用する前にデータを変換する前処理として使用されます。データの変数が多すぎると、パターンを見つけるのが難しくなるため、多変量解析の性能が最適なレベルに達しません。
クラスター分析
クラスター分析とは、対象物や事例をクラスターと呼ばれる相対的なグループに分類するために使用される手法の一種です。
- クラスタ分析を行う際には、まずデータの類似性に基づいてデータセットをグループに分割し、次にグループにラベルを割り当てます。
- 分類に対するクラスタリングの主な利点は、変化に適応し、異なるグループを区別する有用な特徴を単一化するのに役立つことです。
クレジットカードの不正使用の検出など、異常値検出のアプリケーションで使用されるクラスタ分析。
Multidimensional Scaling
Multidimensional Scaling (MDS) は、複数のオブジェクトの相対的な位置を表示するマップを、それらのオブジェクト間の距離のテーブルのみを与えて作成する技術です。 マップは、1次元、2次元、3次元、またはそれ以上の次元で構成されます。 プログラムは、メートル法または非メートル法の解を計算する。 距離の表は近接行列として知られている. これは、実験から直接、または相関行列として間接的に得られます。
相関分析
相関分析は、非負のデータの表の行と列を、特定の空間的な解釈で、地図上の点として視覚化する方法です。 データは通常、クロス集計でカウントされますが、この方法は適切なデータ変換を使用して他の多くのタイプのデータに拡張されています。 クロス集計の場合,この手法は,Pearsonカイ二乗統計で測定される表の行と列の間の関連性を説明すると考えることができる. この方法は、行や列を高次元空間に配置し、その点を近似するために最適な部分空間(通常は平面)を見つけるという点で、主成分分析といくつかの類似点があります。
コレスポンデンス・テーブルとは、非負の量の長方形の二元配列で、テーブルの行エントリと列エントリの間の関連性の強さを示すものです。
多変量解析の目的
(1)データの削減または構造の単純化。 貴重な情報を犠牲にすることなく、可能な限りデータを単純化することができます。
(2) Sorting and grouping: 複数の変数がある場合、測定された特性に基づいて、「類似した」オブジェクトや変数のグループを作成します。
(3)変数間の依存関係の調査。 変数間の関係の性質は興味深いものです。 すべての変数が相互に独立しているのか、あるいは1つ以上の変数が他の変数に依存しているのか。
(4) 予測 変数間の関係:他の変数の観測結果に基づいて、1つまたは複数の変数の値を予測する目的で決定されなければならない。
(5) 仮説の構築と検証。 多変量の母集団のパラメータの観点から定式化された特定の統計的仮説を検証する。
Also Read: Introduction to Sampling Techniques
Model Building Process
Model Building(予測因子の選択)は、統計学のスキルの中でも伝えるのが難しいものの1つです。 各ステップで状況を評価し、次のステップを決定しなければならないため、手順を示すことは困難です。
主要な部分(ステージ1からステージ3)では、分析の目的、分析スタイルの問題、仮定のテストなどを扱います。
第二部(ステージ1からステージ3)では、分析の目的、分析スタイルの問題、前提条件のテストを行い、後半では、モデルの推定、解釈、モデルの検証に関する問題を扱います。
モデルの前提条件
変数間の関係を予測することは容易なことではありません。 それぞれのモデルには前提条件があります。 多変量解析の基礎となる最も重要な仮定は、正規性、同次性、線形性、および相関性のある誤差がないことです。 データセットが仮定に従っていない場合、研究者は何らかの前処理を行う必要があります。
多変量統計のまとめ
多変量統計の鍵は、以下のような技術の関係を概念的に理解することです。
- 各手法が適している問題の種類
- 各手法の目的
- 各手法に必要なデータ構造
- 各手法のサンプリングに関する考慮事項
- 各手法の基礎となる数学モデル、またはその欠如
- 各手法の補完的な使用の可能性
。
最後に、各手法には、その結果を解釈しようとする前に分析者が明確に理解すべき、ある種の長所と短所があるということを結論付けたいと思います。
多変量解析の必要性を説明するアルバート・アインシュタインの名言に、「簡単に説明できなければ、十分に理解していない」というものがあります。
私は、多変量解析のあらゆる側面を提供しようとしました。
今回は多変量解析のあらゆる側面をご紹介しましたが、一言で言えば、多変量解析は調査対象となるサンプルのデータ構造を探るのに役立ちます。
Great Learning Academyの無料コースに登録して、今すぐスキルアップしましょう。
iv