Aperçu de l’analyse multivariée | Qu’est-ce que l’analyse multivariée et le processus de construction d’un modèle ?

Analyse multivariée
Share
Facebook
Twitter

.

WhatsApp

  1. Introduction à l’analyse multivariée
  2. Historique
  3. Un aperçu
  4. .

  5. Avantages et inconvénients
  6. Tableau de classification des techniques multivariées
  7. Analyse multivariée de la variance et de la covariance
  8. L’objectif de l’analyse multivariée
  9. Processus de construction du modèle
  10. Hypothèses du modèle
  11. Sommaire

Contribué par : Harsha Nimkar
ProfilLinkedIn : https://www.linkedin.com/in/harsha-nimkar-8b117882/

Introduction

Multivarié signifie impliquant plusieurs variables dépendantes résultant en un seul résultat. Cela explique que la majorité des problèmes dans le monde réel sont Multivariés. Par exemple, nous ne pouvons pas prédire la météo d’une année en nous basant sur la saison. Il existe de multiples facteurs comme la pollution, l’humidité, les précipitations, etc. Ici, nous allons vous présenter l’analyse multivariée, son histoire, et son application dans différents domaines.

L’histoire de l’analyse multivariée

En 1928, Wishart présente son article. The Precise distribution of the sample covariance matrix of the multivariate normal population, qui est l’initiation de l’AVM.

Dans les années 1930, R.A. Fischer, Hotelling, S.N. Roy, et B.L. Xu et al. ont fait beaucoup de travail théorique fondamental sur l’analyse multivariée. À cette époque, elle était largement utilisée dans les domaines de la psychologie, de l’éducation et de la biologie.

Au milieu des années 1950, avec l’apparition et l’expansion des ordinateurs, l’analyse multivariée a commencé à jouer un grand rôle dans la géologie, la météorologie. Médicale et sociale et les sciences. Dès lors, de nouvelles théories et de nouvelles méthodes ont été proposées et testées en permanence par la pratique et, parallèlement, de nouveaux champs d’application ont été exploités. Avec les aides des ordinateurs modernes, nous pouvons appliquer la méthodologie de l’analyse multivariée pour faire des analyses statistiques assez complexes.

Analyse d'étude de marché, service d'étude de marché - Madras ...

Analyse multivariée : Un aperçu

Supposons qu’un projet vous ait été confié pour prédire les ventes de l’entreprise. Vous ne pouvez pas simplement dire que ‘X’ est le facteur qui affectera les ventes.

Nous savons qu’il existe de multiples aspects ou variables qui auront un impact sur les ventes. Pour analyser les variables qui auront un impact majeur sur les ventes, on ne peut les trouver qu’avec une analyse multivariée. Et dans la plupart des cas, il ne s’agira pas d’une seule variable.

Comme nous le savons, les ventes vont dépendre de la catégorie du produit, de la capacité de production, de la situation géographique, de l’effort marketing, de la présence de la marque sur le marché, de l’analyse de la concurrence, du coût du produit et de multiples autres variables. Les ventes ne sont qu’un exemple ; cette étude peut être mise en œuvre dans n’importe quelle section de la plupart des domaines.

L’analyse multivariée est largement utilisée dans de nombreuses industries, comme les soins de santé. Lors de l’événement récent du COVID-19, une équipe de data scientists a prédit que Delhi compterait plus de 5lakhs de patients atteints du COVID-19 d’ici la fin juillet 2020. Cette analyse était basée sur de multiples variables comme la décision du gouvernement, le comportement du public, la population, la profession, les transports publics, les services de santé et l’immunité globale de la communauté.

Selon l’étude Data Analysis de Murtaza Haider de l’université Ryerson sur la côte de l’appartement et ce qui entraîne une augmentation du coût ou une diminution du coût, est également basée sur une analyse multivariée. D’après cette étude, l’un des principaux facteurs était l’infrastructure de transport. Les gens pensaient à acheter une maison dans un endroit offrant de meilleurs transports, et selon l’équipe d’analyse, c’est l’une des variables auxquelles on pensait le moins au début de l’étude. Mais avec l’analyse, cela est venu dans quelques variables finales impactant le résultat.

L’analyse multivariée fait partie de l’analyse exploratoire des données. Sur la base de l’AVM, nous pouvons visualiser l’aperçu plus profond de plusieurs variables.

Il existe plus de 20 méthodes différentes pour effectuer une analyse multivariée et quelle méthode est la meilleure dépend du type de données et du problème que vous essayez de résoudre.

L’analyse multivariée (AVM) est une procédure statistique d’analyse des données impliquant plus d’un type de mesure ou d’observation. Elle peut également signifier la résolution de problèmes où plus d’une variable dépendante est analysée simultanément avec d’autres variables.

Avantages et inconvénients de l’analyse multivariée

Avantages

.

  • Le principal avantage de l’analyse multivariée est que, puisqu’elle prend en compte plus d’un facteur des variables indépendantes qui influencent la variabilité des variables dépendantes, la conclusion tirée est plus précise.
  • Les conclusions sont plus réalistes et plus proches de la situation réelle.

Inconvénients

  • Le principal inconvénient de l’AVM comprend le fait qu’elle nécessite des calculs assez complexes pour arriver à une conclusion satisfaisante.
  • De nombreuses observations pour un grand nombre de variables doivent être collectées et tabulées ; c’est un processus assez long.

Charte de classification des techniques multivariées

Le choix de la technique multivariée appropriée dépend de-

L'analyse de données multivariées : An Overview | SpringerLink

a) Les variables sont-elles divisées en classification indépendante et dépendante ?

b) Si oui, combien de variables sont traitées comme dépendantes dans une seule analyse ?

c) Comment sont mesurées les variables, à la fois dépendantes et indépendantes ?

La technique d’analyse multivariée peut être classée en deux grandes catégories à savoir : Cette classification dépend de la question : les variables impliquées sont-elles dépendantes les unes des autres ou non ?

Si la réponse est oui : Nous avons des méthodes de Dépendance.
Si la réponse est non : Nous avons des méthodes d’interdépendance.

Technique de dépendance : Les techniques de dépendance sont des types de techniques d’analyse multivariée qui sont utilisées lorsqu’une ou plusieurs des variables peuvent être identifiées comme des variables dépendantes et que les autres variables peuvent être identifiées comme indépendantes.

Lire aussi : Qu’est-ce que le Big Data Analytics ?

L’analyse de régression multiple

L’analyse de régression multiple- La régression multiple est une extension de la régression linéaire simple. Elle est utilisée lorsque nous voulons prédire la valeur d’une variable en fonction de la valeur de deux autres variables ou plus. La variable que nous voulons prédire est appelée la variable dépendante (ou parfois, la variable de résultat, cible ou critère). La régression multiple utilise plusieurs variables « x » pour chaque variable indépendante : (x1)1, (x2)1, (x3)1, Y1)

Lire aussi : La régression linéaire dans l’apprentissage automatique

L’analyse conjointe

L’analyse conjointe’ est une technique statistique basée sur des enquêtes, utilisée dans les études de marché, qui permet de déterminer comment les gens apprécient les différents attributs (caractéristique, fonction, avantages) qui composent un produit ou un service individuel. L’objectif de l’analyse conjointe est de déterminer les choix ou les décisions de l’utilisateur final, qui détermine la politique/le produit/le service. Elle est aujourd’hui utilisée dans de nombreux domaines, notamment le marketing, la gestion de produits, la recherche opérationnelle, etc.

Elle est fréquemment utilisée pour tester la réponse des consommateurs aux nouveaux produits, pour l’acceptation des publicités et la conception des services. Les techniques d’analyse conjointe peuvent également être appelées modélisation de composition multi-attributs, modélisation de choix discret ou recherche de préférences déclarées, et font partie d’un ensemble plus large d’outils d’analyse de compromis utilisés pour l’analyse systématique des décisions.

Il existe de multiples techniques conjointes, quelques-unes d’entre elles sont le CBC (Choice-based conjoint) ou l’ACBC (Adaptive CBC).

Analyse discriminante multiple

L’objectif de l’analyse discriminante est de déterminer l’appartenance à un groupe d’échantillons à partir d’un groupe de prédicteurs en trouvant des combinaisons linéaires des variables qui maximisent les différences entre les variables étudiées, d’établir un modèle permettant de trier les objets dans leurs populations appropriées avec une erreur minimale.

L’analyse discriminante dérive une équation sous la forme d’une combinaison linéaire des variables indépendantes qui discrimineront au mieux les groupes de la variable dépendante. Cette combinaison linéaire est connue sous le nom de fonction discriminante. Les pondérations attribuées à chaque variable indépendante sont corrigées pour tenir compte des interrelations entre toutes les variables. Les poids sont appelés coefficients discriminants.

L’équation discriminante :

F = β0 + β1X1 + β2X2 + … + βpXp + ε

où, F est une variable latente formée par la combinaison linéaire de la variable dépendante, X1, X2,… XP est la p variable indépendante, ε est le terme d’erreur et β0, β1, β2,…, βp est les coefficients discriminants.

Un modèle de probabilité linéaire

Un modèle de probabilité linéaire (MPL) est un modèle de régression où la variable de résultat est binaire, et où une ou plusieurs variables explicatives sont utilisées pour prédire le résultat. Les variables explicatives peuvent elles-mêmes être binaires ou être continues. Si la classification implique une variable dépendante binaire et que les variables indépendantes incluent des variables non métriques, il est préférable d’appliquer des modèles de probabilité linéaires.

Les résultats binaires sont partout : qu’une personne soit morte ou non, qu’elle se soit cassée la hanche, qu’elle souffre d’hypertension ou de diabète, etc.

Nous voulons typiquement comprendre quelle est la probabilité du résultat binaire compte tenu des variables explicatives.

Nous pourrions en fait utiliser notre modèle linéaire pour le faire, il est très simple de comprendre pourquoi. Si Y est un indicateur ou une variable muette, alors E est la proportion de 1 étant donné X, que nous interprétons comme une probabilité de Y étant donné X.

Nous pouvons alors interpréter les paramètres comme le changement de la probabilité de Y lorsque X change d’une unité ou pour un petit changement de X Par exemple, si nous modélisons , nous pourrions interpréter β1 comme le changement de la probabilité de décès pour une année d’âge supplémentaire

Analyse de variance à plusieurs variables et covariance

L’analyse de variance à plusieurs variables (MANOVA) est une extension d’une analyse de variance commune (ANOVA). Dans l’ANOVA, on étudie les différences entre diverses moyennes de groupes sur une variable à réponse unique. Dans l’analyse MANOVA, le nombre de variables de réponse est porté à deux ou plus. L’hypothèse concerne une comparaison de vecteurs de moyennes de groupes. Une MANOVA comporte un ou plusieurs facteurs (chacun avec deux ou plusieurs niveaux) et deux ou plusieurs variables dépendantes. Les calculs sont des extensions de l’approche du modèle linéaire général utilisé pour l’ANOVA.

Analyse de corrélation canonique

L’analyse de corrélation canonique est l’étude des relations linéaires entre deux ensembles de variables. C’est l’extension multivariée de l’analyse de corrélation.

L’ACC est utilisée à deux fins typiques :-

  • Réduction des données
  • Interprétation des données

Vous pourriez calculer toutes les corrélations entre les variables d’un ensemble (p) et les variables du second ensemble (q), cependant l’interprétation est difficile lorsque pq est grand.

L’analyse de corrélation canonique nous permet de résumer les relations en un nombre moindre de statistiques tout en préservant les principales facettes des relations. D’une certaine manière, la motivation de la corrélation canonique est très similaire à l’analyse en composantes principales.

Modélisation des équations structurelles

La modélisation des équations structurelles est une technique d’analyse statistique multivariée qui est utilisée pour analyser les relations structurelles. Il s’agit d’un cadre extrêmement large et flexible pour l’analyse des données, qu’il vaut peut-être mieux considérer comme une famille de méthodes connexes plutôt que comme une technique unique.

La SEM en une seule analyse permet d’évaluer la causalité supposée entre un ensemble de constructions dépendantes et indépendantes, c’est-à-dire la validation du modèle structurel, et les chargements des items observés (mesures) sur leurs variables latentes attendues (constructions), c’est-à-dire la validation du modèle de mesure. L’analyse combinée du modèle de mesure et du modèle structurel permet d’analyser les erreurs de mesure des variables observées comme partie intégrante du modèle, et de combiner l’analyse factorielle en une seule opération avec la vérification des hypothèses.

Technique d’interdépendance

Les techniques d’interdépendance sont un type de relation dont les variables ne peuvent être classées comme dépendantes ou indépendantes.

Elle vise à démêler les relations entre les variables et/ou les sujets sans supposer explicitement des distributions spécifiques pour les variables. L’idée est de décrire les modèles dans les données sans faire des hypothèses (très) fortes sur les variables.

Analyse factorielle

L’analyse factorielle est un moyen de condenser les données de nombreuses variables en quelques variables seulement. Pour cette raison, elle est aussi parfois appelée « réduction de dimension ». Elle permet de regrouper les variables présentant une forte corrélation. L’analyse factorielle comprend des techniques telles que l’analyse en composantes principales et l’analyse factorielle commune.

Ce type de technique est utilisé comme une étape de prétraitement pour transformer les données avant d’utiliser d’autres modèles. Lorsque les données comportent trop de variables, les performances des techniques multivariées ne sont pas au niveau optimal, car les modèles sont plus difficiles à trouver. En utilisant l’analyse factorielle, les modèles deviennent moins dilués et plus faciles à analyser.

Analyse de cluster

L’analyse de cluster est une classe de techniques qui sont utilisées pour classer des objets ou des cas dans des groupes relatifs appelés clusters. Dans l’analyse de cluster, il n’y a pas d’informations préalables sur le groupe ou l’appartenance à un cluster pour l’un des objets.

  • Lorsqu’on fait une analyse de cluster, on partitionne d’abord l’ensemble des données en groupes basés sur la similarité des données, puis on attribue les étiquettes aux groupes.
  • Le principal avantage du clustering par rapport à la classification est qu’il s’adapte aux changements et permet de singulariser les caractéristiques utiles qui distinguent les différents groupes.

L’analyse de cluster est utilisée dans les applications de détection de valeurs aberrantes telles que la détection de la fraude par carte de crédit. En tant que fonction d’exploration de données, l’analyse de cluster sert d’outil pour avoir un aperçu de la distribution des données afin d’observer les caractéristiques de chaque cluster.

Multidimensional Scaling

La mise à l’échelle multidimensionnelle (MDS) est une technique qui crée une carte affichant les positions relatives de plusieurs objets, étant donné uniquement un tableau des distances entre eux. La carte peut comporter une, deux, trois ou même plus de dimensions. Le programme calcule soit la solution métrique, soit la solution non métrique. La table des distances est connue sous le nom de matrice de proximité. Elle découle soit directement des expériences, soit indirectement d’une matrice de corrélation.

Analyse des correspondances

L’analyse des correspondances est une méthode permettant de visualiser les lignes et les colonnes d’un tableau de données non négatives comme des points sur une carte, avec une interprétation spatiale spécifique. Les données sont généralement comptées dans un tableau croisé, bien que la méthode ait été étendue à de nombreux autres types de données en utilisant des transformations de données appropriées. Pour les tableaux croisés, la méthode peut être considérée comme expliquant l’association entre les lignes et les colonnes du tableau, telle que mesurée par la statistique du chi-deux de Pearson. La méthode présente plusieurs similitudes avec l’analyse en composantes principales, en ce sens qu’elle situe les lignes ou les colonnes dans un espace à haute dimension, puis trouve un sous-espace le mieux adapté, généralement un plan, dans lequel approximer les points.

Un tableau de correspondance est tout tableau rectangulaire bidirectionnel de quantités non négatives qui indique la force de l’association entre l’entrée de la ligne et l’entrée de la colonne du tableau. L’exemple le plus courant de tableau de correspondance est un tableau de contingence, dans lequel les entrées de ligne et de colonne se réfèrent aux catégories de deux variables catégorielles, et les quantités dans les cellules du tableau sont des fréquences.

L’objectif de l’analyse multivariée

(1) Réduction des données ou simplification structurelle : Cela permet de simplifier les données au maximum sans sacrifier des informations précieuses. L’interprétation en sera facilitée.

(2) Le tri et le regroupement : Lorsque nous avons plusieurs variables, des groupes d’objets ou de variables « similaires » sont créés, sur la base de caractéristiques mesurées.

(3) L’étude de la dépendance entre les variables : On s’intéresse à la nature des relations entre les variables. Toutes les variables sont-elles mutuellement indépendantes ou une ou plusieurs variables dépendent-elles des autres ?

(4) Prédiction Relations entre les variables : doivent être déterminées dans le but de prédire les valeurs d’une ou plusieurs variables en fonction des observations sur les autres variables.

(5) Construction et test d’hypothèses . Des hypothèses statistiques spécifiques, formulées en termes de paramètres de populations multivariées, sont testées. Cela peut être fait pour valider des hypothèses ou pour renforcer des convictions antérieures.

Lire aussi : Introduction aux techniques d’échantillonnage

Processus de construction de modèles

La construction de modèles – le choix des prédicteurs – est l’une de ces compétences en statistiques qui est difficile à dire. Il est difficile d’exposer les étapes, car à chaque étape, vous devez évaluer la situation et prendre des décisions sur l’étape suivante. Mais voici quelques-unes des étapes à garder à l’esprit.

La première partie (étapes un à trois) porte sur les objectifs de l’analyse, les préoccupations relatives au style d’analyse et la vérification des hypothèses. La seconde partie traite des problèmes se référant à l’estimation du modèle, à l’interprétation et à la validation du modèle. Voici l’organigramme général pour construire un modèle approprié en utilisant n’importe quelle application des techniques de variables-

Hypothèses du modèle

La prédiction des relations entre les variables n’est pas une tâche facile. Chaque modèle a ses hypothèses. Les hypothèses les plus importantes qui sous-tendent l’analyse multivariée sont la normalité, l’homoscédasticité, la linéarité et l’absence d’erreurs corrélées. Si l’ensemble de données ne respecte pas ces hypothèses, le chercheur doit effectuer un prétraitement. Manquer cette étape peut entraîner des modèles incorrects qui produisent des résultats faux et peu fiables.

Synthèse des statistiques multivariées

La clé des statistiques multivariées est de comprendre conceptuellement la relation entre les techniques en ce qui concerne :

  • Les types de problèmes pour lesquels chaque technique est adaptée.
  • L’objectif ou les objectifs de chaque technique.
  • La structure de données requise pour chaque technique,
  • Les considérations d’échantillonnage pour chaque technique.
  • Le modèle mathématique sous-jacent, ou son absence, de chaque technique.
  • Potentiel d’utilisation complémentaire des techniques

Enfin, je voudrais conclure que chaque technique a également certaines forces et faiblesses qui devraient être clairement comprises par l’analyste avant de tenter d’interpréter les résultats de la technique. Les progiciels statistiques actuels (SAS, SPSS, S-Plus et autres) facilitent de plus en plus l’exécution d’une procédure, mais les résultats peuvent être désastreusement mal interprétés sans une attention adéquate.

L’une des meilleures citations d’Albert Einstein qui explique la nécessité de l’analyse multivariée est la suivante : « Si vous ne pouvez pas l’expliquer simplement, vous ne le comprenez pas assez bien. »

J’ai essayé de fournir tous les aspects de l’analyse multivariée. En bref, l’analyse multivariée des données peut aider à explorer les structures de données des échantillons étudiés.

Inscrivez-vous aux cours gratuits de la Great Learning Academy et améliorez vos compétences dès aujourd’hui !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *