- Introducción al análisis multivariante
- Historia
- Una visión general
- Ventajas y desventajas
- Cuadro de clasificación de las técnicas multivariantes
- Análisis multivariante de la varianza y la covarianza
- El objetivo del análisis multivariante
- Proceso de construcción de modelos
- Supuestos del modelo
- Resumen
.
Contribuido por: Harsha Nimkar
Perfil de LinkedIn: https://www.linkedin.com/in/harsha-nimkar-8b117882/
Introducción
Multivariante significa que implica múltiples variables dependientes que dan lugar a un resultado. Esto explica que la mayoría de los problemas del mundo real sean Multivariantes. Por ejemplo, no podemos predecir el tiempo de cualquier año basándonos en la estación del año. Hay múltiples factores como la contaminación, la humedad, las precipitaciones, etc. Aquí te presentaremos el análisis multivariante, su historia y su aplicación en diferentes campos.
La historia del análisis multivariante
En 1928, Wishart presentó su artículo. The Precise distribution of the sample covariance matrix of the multivariate normal population, que es el inicio del MVA.
En la década de 1930, R.A. Fischer, Hotelling, S.N. Roy, y B.L. Xu et al. realizaron muchos trabajos teóricos fundamentales sobre el análisis multivariante. En esa época, se utilizaba ampliamente en los campos de la psicología, la educación y la biología.
A mediados de la década de 1950, con la aparición y expansión de los ordenadores, el análisis multivariante comenzó a jugar un gran papel en la geología, la meteorología. Médica y social y en la ciencia. A partir de entonces, se propusieron y probaron constantemente nuevas teorías y nuevos métodos mediante la práctica y, al mismo tiempo, se explotaron más campos de aplicación. Con la ayuda de los ordenadores modernos, podemos aplicar la metodología del análisis multivariante para realizar análisis estadísticos bastante complejos.
Análisis multivariante: Una visión general
Suponga que le han asignado un proyecto para predecir las ventas de la empresa. No se puede decir simplemente que «X» es el factor que afectará a las ventas.
Sabemos que hay múltiples aspectos o variables que impactarán en las ventas. Para analizar las variables que impactarán mayormente en las ventas, sólo se puede encontrar con el análisis multivariado. Y en la mayoría de los casos, no será una sola variable.
Como sabemos, las ventas dependerán de la categoría del producto, de la capacidad de producción, de la ubicación geográfica, del esfuerzo de marketing, de la presencia de la marca en el mercado, del análisis de la competencia, del coste del producto, y de otras múltiples variables. Las ventas son sólo un ejemplo; este estudio se puede aplicar en cualquier apartado de la mayoría de los campos.
El análisis multivariante se utiliza ampliamente en muchos sectores, como el sanitario. En el reciente evento de COVID-19, un equipo de científicos de datos predijo que Delhi tendría más de 5lakh de pacientes de COVID-19 a finales de julio de 2020. Este análisis se basó en múltiples variables como la decisión del gobierno, el comportamiento del público, la población, la ocupación, el transporte público, los servicios sanitarios y la inmunidad general de la comunidad.
Según el estudio de análisis de datos realizado por Murtaza Haider de la universidad de Ryerson sobre la costa del departamento y lo que lleva a un aumento del coste o a una disminución del mismo, también se basa en un análisis multivariante. Según ese estudio, uno de los principales factores era la infraestructura de transporte. La gente pensaba en comprar una vivienda en un lugar que ofreciera un mejor transporte y, según el equipo de análisis, esta es una de las variables en las que menos se pensaba al principio del estudio. Pero con el análisis, esto se convirtió en unas pocas variables finales que impactaron en el resultado.
El análisis multivariado es parte del análisis exploratorio de datos. Basado en el MVA, podemos visualizar la visión más profunda de múltiples variables.
Hay más de 20 métodos diferentes para realizar el análisis multivariante y qué método es el mejor depende del tipo de datos y del problema que se intenta resolver.
El análisis multivariante (AMV) es un procedimiento estadístico para el análisis de datos que implican más de un tipo de medición u observación. También puede significar la resolución de problemas en los que se analiza más de una variable dependiente simultáneamente con otras variables.
Ventajas y desventajas del análisis multivariante
Ventajas
- La principal ventaja del análisis multivariante es que al considerar más de un factor de las variables independientes que influyen en la variabilidad de las variables dependientes, la conclusión extraída es más precisa.
- Las conclusiones son más realistas y cercanas a la situación real.
Desventajas
- La principal desventaja del MVA incluye que requiere cálculos bastante complejos para llegar a una conclusión satisfactoria.
- Es necesario recopilar y tabular muchas observaciones para un gran número de variables; es un proceso que requiere bastante tiempo.
Cuadro de clasificación de las técnicas multivariantes
La selección de la técnica multivariante adecuada depende de-
a) ¿Se dividen las variables en clasificación independiente y dependiente?
b) En caso afirmativo, ¿cuántas variables se tratan como dependientes en un mismo análisis?
c) ¿Cómo se miden las variables, tanto dependientes como independientes?
La técnica de análisis multivariante puede clasificarse en dos grandes categorías a saber, Esta clasificación depende de la pregunta: ¿las variables implicadas son dependientes entre sí o no?
Si la respuesta es sí: tenemos métodos de Dependencia.
Si la respuesta es no: Tenemos métodos de Interdependencia.
Técnicas de dependencia: Las Técnicas de Dependencia son tipos de técnicas de análisis multivariante que se utilizan cuando una o varias de las variables pueden ser identificadas como variables dependientes y el resto de variables pueden ser identificadas como independientes.
También puedes leer: ¿Qué es Big Data Analytics?
Análisis de regresión múltiple
La regresión múltiple es una extensión de la regresión lineal simple. Se utiliza cuando queremos predecir el valor de una variable en función del valor de otras dos o más variables. La variable que queremos predecir se llama variable dependiente (o a veces, variable de resultado, objetivo o criterio). La regresión múltiple utiliza múltiples variables «x» para cada variable independiente: (x1)1, (x2)1, (x3)1, Y1)
También puede leer: Regresión lineal en el aprendizaje automático
Análisis conjunto
El ‘análisis conjunto’ es una técnica estadística basada en encuestas que se utiliza en la investigación de mercados y que ayuda a determinar cómo la gente valora los diferentes atributos (característica, función, beneficios) que componen un producto o servicio individual. El objetivo del análisis conjunto es determinar las elecciones o decisiones del usuario final, que impulsa la política/producto/servicio. Hoy en día se utiliza en muchos campos, como el marketing, la gestión de productos, la investigación de operaciones, etc.
Se utiliza con frecuencia en la comprobación de la respuesta de los consumidores a los nuevos productos, en la aceptación de anuncios y en el diseño de servicios. Las técnicas de análisis conjunto también pueden denominarse modelos de composición multiatributo, modelos de elección discreta o investigación de preferencias declaradas, y forman parte de un conjunto más amplio de herramientas de análisis de compensaciones utilizadas para el análisis sistemático de las decisiones.
Existen múltiples técnicas conjuntas, algunas de ellas son CBC (Choice-based conjoint) o ACBC (Adaptive CBC).
Análisis discriminante múltiple
El objetivo del análisis discriminante es determinar la pertenencia a un grupo de muestras a partir de un grupo de predictores encontrando combinaciones lineales de las variables que maximicen las diferencias entre las variables estudiadas, para establecer un modelo que permita clasificar los objetos en sus poblaciones adecuadas con un error mínimo.
El análisis discriminante deriva una ecuación como combinación lineal de las variables independientes que mejor discriminarán entre los grupos de la variable dependiente. Esta combinación lineal se conoce como función discriminante. Los pesos asignados a cada variable independiente se corrigen en función de las interrelaciones entre todas las variables. Los pesos se denominan coeficientes discriminantes.
La ecuación discriminante:
F = β0 + β1X1 + β2X2 + … + βpXp + ε
donde, F es una variable latente formada por la combinación lineal de la variable dependiente, X1, X2,… XP es la variable independiente p, ε es el término de error y β0, β1, β2,…, βp son los coeficientes discriminantes.
Un modelo de probabilidad lineal
Un modelo de probabilidad lineal (MPL) es un modelo de regresión en el que la variable de resultado es binaria, y una o más variables explicativas se utilizan para predecir el resultado. Las variables explicativas pueden ser a su vez binarias o continuas. Si la clasificación implica una variable dependiente binaria y las variables independientes incluyen otras no métricas, es mejor aplicar modelos de probabilidad lineal.
Los resultados binarios están en todas partes: si una persona murió o no, se rompió la cadera, tiene hipertensión o diabetes, etc.
Típicamente queremos entender cuál es la probabilidad del resultado binario dadas las variables explicativas.
En realidad, podríamos utilizar nuestro modelo lineal para hacerlo, es muy sencillo entender por qué. Si Y es un indicador o variable ficticia, entonces E es la proporción de 1s dado X, que interpretamos como una probabilidad de Y dado X.
Podemos entonces interpretar los parámetros como el cambio en la probabilidad de Y cuando X cambia en una unidad o para un pequeño cambio en X Por ejemplo, si modelamos , podríamos interpretar β1 como el cambio en la probabilidad de muerte para un año adicional de edad
Análisis multivariante de la varianza y covarianza
El análisis multivariante de la varianza (MANOVA) es una extensión de un análisis común de la varianza (ANOVA). En el ANOVA, se estudian las diferencias entre las medias de varios grupos en una variable de respuesta única. En el MANOVA, el número de variables de respuesta aumenta a dos o más. La hipótesis se refiere a una comparación de vectores de medias de grupos. Un MANOVA tiene uno o más factores (cada uno con dos o más niveles) y dos o más variables dependientes. Los cálculos son extensiones del enfoque del modelo lineal general utilizado para el ANOVA.
Análisis de correlación canónica
El análisis de correlación canónica es el estudio de las relaciones lineales entre dos conjuntos de variables. Es la extensión multivariante del análisis de correlación.
El ACC se utiliza para dos propósitos típicos :-
- Reducción de datos
- Interpretación de datos
- Al hacer el análisis de clústeres, primero se particiona el conjunto de datos en grupos basados en la similitud de los datos y luego se asignan las etiquetas a los grupos.
- La principal ventaja del clúster sobre la clasificación es que es adaptable a los cambios y ayuda a singularizar las características útiles que distinguen a los diferentes grupos.
- Los tipos de problemas para los que cada técnica es adecuada.
- El objetivo(s) de cada técnica.
- La estructura de datos requerida para cada técnica,
- Consideraciones de muestreo para cada técnica.
- Modelo matemático subyacente, o falta de él, de cada técnica.
- Potencial de uso complementario de las técnicas
Se podrían calcular todas las correlaciones entre las variables de un conjunto (p) con las variables del segundo conjunto (q), sin embargo la interpretación es difícil cuando pq es grande.
El Análisis de Correlación Canónica nos permite resumir las relaciones en un número menor de estadísticas, preservando las facetas principales de las relaciones. En cierto modo, la motivación de la correlación canónica es muy similar a la del análisis de componentes principales.
Modelado de ecuaciones estructurales
El modelado de ecuaciones estructurales es una técnica de análisis estadístico multivariante que se utiliza para analizar las relaciones estructurales. Se trata de un marco extremadamente amplio y flexible para el análisis de datos, quizás mejor pensado como una familia de métodos relacionados más que como una técnica única.
El MEC en un solo análisis puede evaluar la supuesta causalidad entre un conjunto de constructos dependientes e independientes, es decir, la validación del modelo estructural y las cargas de los ítems observados (mediciones) en sus variables latentes esperadas (constructos), es decir, la validación del modelo de medición. El análisis combinado de la medición y el modelo estructural permite analizar los errores de medición de las variables observadas como parte integrante del modelo, y el análisis factorial combinado en una sola operación con la prueba de hipótesis.
Técnica de la interdependencia
La técnica de la interdependencia es un tipo de relación que las variables no pueden ser clasificadas como dependientes o independientes.
Su objetivo es desentrañar las relaciones entre las variables y/o los sujetos sin asumir explícitamente distribuciones específicas para las variables. La idea es describir los patrones en los datos sin hacer suposiciones (muy) fuertes sobre las variables.
Análisis de factores
El análisis de factores es una forma de condensar los datos en muchas variables en sólo unas pocas variables. Por esta razón, a veces también se llama «reducción de la dimensión». Realiza la agrupación de variables con alta correlación. El análisis factorial incluye técnicas como el análisis de componentes principales y el análisis factorial común.
Este tipo de técnica se utiliza como un paso de preprocesamiento para transformar los datos antes de utilizar otros modelos. Cuando los datos tienen demasiadas variables, el rendimiento de las técnicas multivariantes no alcanza el nivel óptimo, ya que es más difícil encontrar patrones. Al utilizar el análisis factorial, los patrones se diluyen menos y son más fáciles de analizar.
Análisis de clústeres
El análisis de clústeres es una clase de técnicas que se utilizan para clasificar objetos o casos en grupos relativos llamados clústeres. En el análisis de clústeres, no hay información previa sobre el grupo o la pertenencia a un clúster para ninguno de los objetos.
El análisis de clústeres se utiliza en aplicaciones de detección de valores atípicos, como la detección de fraudes con tarjetas de crédito. Como función de minería de datos, el análisis de clústeres sirve como herramienta para obtener información sobre la distribución de los datos para observar las características de cada clúster.
Escalado multidimensional
El escalado multidimensional (MDS) es una técnica que crea un mapa que muestra las posiciones relativas de varios objetos, dada sólo una tabla de las distancias entre ellos. El mapa puede tener una, dos, tres o incluso más dimensiones. El programa calcula la solución métrica o no métrica. La tabla de distancias se denomina matriz de proximidad. Surge directamente de los experimentos o indirectamente como una matriz de correlación.
Análisis de correspondencias
El análisis de correspondencias es un método para visualizar las filas y columnas de una tabla de datos no negativos como puntos en un mapa, con una interpretación espacial específica. Los datos suelen contarse en una tabulación cruzada, aunque el método se ha ampliado a muchos otros tipos de datos utilizando transformaciones de datos adecuadas. En el caso de las tabulaciones cruzadas, se puede considerar que el método explica la asociación entre las filas y las columnas de la tabla, medida por el estadístico chi-cuadrado de Pearson. El método tiene varias similitudes con el análisis de componentes principales, en el sentido de que sitúa las filas o las columnas en un espacio de alta dimensión y, a continuación, encuentra un subespacio que se ajusta mejor, normalmente un plano, en el que aproximar los puntos.
Una tabla de correspondencia es cualquier matriz rectangular de dos vías de cantidades no negativas que indica la fuerza de asociación entre la entrada de la fila y la entrada de la columna de la tabla. El ejemplo más común de una tabla de correspondencia es una tabla de contingencia, en la que las entradas de fila y columna se refieren a las categorías de dos variables categóricas, y las cantidades de las celdas de la tabla son frecuencias.
El objetivo del análisis multivariante
(1) Reducción de datos o simplificación estructural: Esto ayuda a que los datos se simplifiquen al máximo sin sacrificar información valiosa. Esto facilitará la interpretación.
(2) Ordenación y agrupación: Cuando tenemos múltiples variables, se crean grupos de objetos o variables «similares», basados en las características medidas.
(3) Investigación de la dependencia entre variables: La naturaleza de las relaciones entre las variables es de interés. ¿Son todas las variables mutuamente independientes o una o más variables dependen de las demás?
(4) Predicción Relaciones entre variables: deben determinarse con el fin de predecir los valores de una o más variables a partir de las observaciones sobre las demás variables.
(5) Construcción y comprobación de hipótesis. Se prueban hipótesis estadísticas específicas, formuladas en términos de los parámetros de las poblaciones multivariantes. Esto puede hacerse para validar las hipótesis o para reforzar las convicciones previas.
También puede leer: Introducción a las técnicas de muestreo
Proceso de construcción de modelos
La construcción de modelos -elección de predictores- es una de esas habilidades en estadística que es difícil de contar. Es difícil exponer los pasos, porque en cada paso hay que evaluar la situación y tomar decisiones sobre el siguiente paso. Pero he aquí algunos de los pasos a tener en cuenta.
La parte principal (etapas uno a tres) trata de los objetivos del análisis, las preocupaciones del estilo de análisis y la comprobación de los supuestos. La segunda parte se ocupa de los problemas referidos a la estimación, interpretación y validación del modelo. A continuación se presenta el diagrama de flujo general para construir un modelo adecuado utilizando cualquier aplicación de las técnicas de variables-
Supuestos del modelo
La predicción de las relaciones entre las variables no es una tarea fácil. Cada modelo tiene sus supuestos. Los supuestos más importantes que subyacen al análisis multivariante son la normalidad, la homocedasticidad, la linealidad y la ausencia de errores correlacionados. Si el conjunto de datos no cumple los supuestos, el investigador debe realizar un preprocesamiento. Omitir este paso puede provocar modelos incorrectos que produzcan resultados falsos y poco fiables.
Resumen de la estadística multivariante
La clave de la estadística multivariante es entender conceptualmente la relación entre las técnicas con respecto a:
Por último, me gustaría concluir que cada técnica también tiene ciertas fortalezas y debilidades que deben ser claramente comprendidas por el analista antes de intentar interpretar los resultados de la técnica. Los paquetes estadísticos actuales (SAS, SPSS, S-Plus y otros) facilitan cada vez más la ejecución de un procedimiento, pero los resultados pueden ser desastrosamente malinterpretados si no se tiene el cuidado adecuado.
Una de las mejores citas de Albert Einstein que explica la necesidad del análisis multivariante es: «Si no puedes explicarlo de forma sencilla, no lo entiendes lo suficientemente bien.»
He tratado de proporcionar todos los aspectos del análisis Multivariante. En resumen, el análisis de datos Multivariante puede ayudar a explorar las estructuras de datos de las muestras investigadas.
¡Inscríbete en los cursos gratuitos de Great Learning Academy y actualízate hoy mismo!