- Introduzione all’analisi multivariata
- Storia
- Una panoramica
- Svantaggi e svantaggi
- Classificazione delle tecniche multivariate
- Analisi multivariata della varianza e della covarianza
- L’obiettivo dell’analisi multivariata
- Processo di costruzione del modello
- Ipotesi del modello
- Summario
Contribuito da: Harsha Nimkar
ProfiloLinkedIn: https://www.linkedin.com/in/harsha-nimkar-8b117882/
Introduzione
Multivariato significa coinvolgere più variabili dipendenti che danno luogo a un risultato. Questo spiega che la maggior parte dei problemi nel mondo reale sono multivariati. Per esempio, non possiamo prevedere il tempo di un anno in base alla stagione. Ci sono più fattori come l’inquinamento, l’umidità, le precipitazioni, ecc. Qui vi presenteremo l’analisi multivariata, la sua storia e la sua applicazione in diversi campi.
La storia dell’analisi multivariata
Nel 1928, Wishart presentò il suo articolo. The Precise distribution of the sample covariance matrix of the multivariate normal population, che è l’inizio dell’MVA.
Negli anni 30, R.A. Fischer, Hotelling, S.N. Roy, e B.L. Xu et al. hanno fatto un sacco di lavoro teorico fondamentale sull’analisi multivariata. A quel tempo, era ampiamente utilizzata nei campi della psicologia, dell’educazione e della biologia.
A metà degli anni ’50, con la comparsa e l’espansione dei computer, l’analisi multivariata ha iniziato a giocare un ruolo importante in geologia, meteorologia. Medico e sociale e nelle scienze. Da allora in poi, nuove teorie e nuovi metodi sono stati proposti e testati costantemente dalla pratica e, allo stesso tempo, sono stati sfruttati più campi di applicazione. Con l’aiuto dei moderni computer, possiamo applicare la metodologia dell’analisi multivariata per fare analisi statistiche piuttosto complesse.
Analisi multivariata: Una panoramica
Supponiamo che vi sia stato assegnato un progetto per prevedere le vendite dell’azienda. Non potete semplicemente dire che ‘X’ è il fattore che influenzerà le vendite.
Sappiamo che ci sono molteplici aspetti o variabili che influiranno sulle vendite. Per analizzare le variabili che influenzeranno maggiormente le vendite, si può trovare solo con l’analisi multivariata. E nella maggior parte dei casi, non sarà solo una variabile.
Come sappiamo, le vendite dipendono dalla categoria del prodotto, dalla capacità di produzione, dalla posizione geografica, dallo sforzo di marketing, dalla presenza del marchio sul mercato, dall’analisi della concorrenza, dal costo del prodotto e da molte altre variabili. Le vendite sono solo un esempio; questo studio può essere implementato in qualsiasi sezione della maggior parte dei campi.
L’analisi multivariata è ampiamente utilizzata in molti settori, come quello sanitario. Nel recente evento di COVID-19, un team di scienziati dei dati ha previsto che Delhi avrebbe avuto più di 5lakh pazienti COVID-19 entro la fine di luglio 2020. Questa analisi si è basata su più variabili come la decisione del governo, il comportamento pubblico, la popolazione, l’occupazione, il trasporto pubblico, i servizi sanitari e l’immunità generale della comunità.
Secondo lo studio di analisi dei dati di Murtaza Haider dell’università Ryerson sulla costa dell’appartamento e ciò che porta a un aumento del costo o a una diminuzione del costo, è anche basato sull’analisi multivariata. Secondo quello studio, uno dei fattori principali era l’infrastruttura di trasporto. La gente pensava di comprare una casa in un luogo che fornisse un migliore trasporto, e secondo il team di analisi, questa è una delle variabili meno considerate all’inizio dello studio. Ma con l’analisi, questo è venuto in poche variabili finali che hanno un impatto sul risultato.
L’analisi multivariata fa parte dell’analisi esplorativa dei dati. Sulla base dell’MVA, possiamo visualizzare la visione più profonda di più variabili.
Ci sono più di 20 metodi diversi per eseguire l’analisi multivariata e quale metodo è migliore dipende dal tipo di dati e dal problema che si sta cercando di risolvere.
L’analisi multivariata (MVA) è una procedura statistica per l’analisi dei dati che coinvolge più di un tipo di misurazione o osservazione. Può anche significare risolvere problemi in cui più di una variabile dipendente viene analizzata simultaneamente ad altre variabili.
Avantaggi e svantaggi dell’analisi multivariata
Avantaggi
- Il vantaggio principale dell’analisi multivariata è che poiché considera più di un fattore di variabili indipendenti che influenzano la variabilità delle variabili dipendenti, la conclusione tratta è più accurata.
- Le conclusioni sono più realistiche e più vicine alla situazione reale.
Svantaggi
- Il principale svantaggio del MVA include che richiede calcoli piuttosto complessi per arrivare ad una conclusione soddisfacente.
- Molte osservazioni per un gran numero di variabili devono essere raccolte e tabulate; è un processo che richiede molto tempo.
Classificazione delle tecniche multivariate
La scelta della tecnica multivariata appropriata dipende da-
a) Le variabili sono divise in classificazione indipendente e dipendente?
b) Se sì, quante variabili sono trattate come dipendenti in una singola analisi?
c) Come vengono misurate le variabili, sia dipendenti che indipendenti?
La tecnica dell’analisi multivariata può essere classificata in due grandi categorie: questa classificazione dipende dalla domanda: le variabili coinvolte sono dipendenti l’una dall’altra o no?
Se la risposta è sì: abbiamo metodi di dipendenza.
Se la risposta è no: Abbiamo metodi di interdipendenza.
Tecnica della dipendenza: Le tecniche di dipendenza sono tipi di tecniche di analisi multivariata che vengono utilizzate quando una o più delle variabili possono essere identificate come variabili dipendenti e le rimanenti variabili possono essere identificate come indipendenti.
Leggi anche: Cos’è la Big Data Analytics?
Regressione multipla
Analisi di regressione multipla- La regressione multipla è un’estensione della regressione lineare semplice. Si usa quando vogliamo predire il valore di una variabile in base al valore di due o più altre variabili. La variabile che vogliamo predire è chiamata la variabile dipendente (o a volte, la variabile risultato, obiettivo o criterio). La regressione multipla usa più variabili “x” per ogni variabile indipendente: (x1)1, (x2)1, (x3)1, Y1)
Leggi anche: Regressione lineare nell’apprendimento automatico
Conjoint analysis
La ‘Conjoint analysis’ è una tecnica statistica basata sul sondaggio usata nelle ricerche di mercato che aiuta a determinare come le persone valutano i diversi attributi (caratteristiche, funzioni, benefici) che compongono un singolo prodotto o servizio. L’obiettivo della conjoint analysis è quello di determinare le scelte o le decisioni dell’utente finale, che guida la politica/prodotto/servizio. Oggi è usata in molti campi tra cui il marketing, la gestione del prodotto, la ricerca operativa, ecc.
E’ usata frequentemente nel testare la risposta del consumatore a nuovi prodotti, nell’accettazione di pubblicità e nel design in-service. Le tecniche di analisi Conjoint possono anche essere indicate come modellazione compositiva multi-attributo, modellazione a scelta discreta, o ricerca sulle preferenze dichiarate, e fa parte di un più ampio insieme di strumenti di analisi del trade-off utilizzati per l’analisi sistematica delle decisioni.
Ci sono molteplici tecniche conjoint, alcune di queste sono CBC (Choice-based conjoint) o ACBC (Adaptive CBC).
Analisi discriminante multipla
L’obiettivo dell’analisi discriminante è quello di determinare l’appartenenza a gruppi di campioni da un gruppo di predittori trovando combinazioni lineari delle variabili che massimizzano le differenze tra le variabili oggetto di studio, per stabilire un modello per ordinare gli oggetti nelle loro popolazioni appropriate con il minimo errore.
L’analisi discriminante deriva un’equazione come combinazione lineare delle variabili indipendenti che discriminerà meglio tra i gruppi nella variabile dipendente. Questa combinazione lineare è nota come funzione discriminante. I pesi assegnati ad ogni variabile indipendente sono corretti per le interrelazioni tra tutte le variabili. I pesi sono chiamati coefficienti discriminanti.
L’equazione discriminante:
F = β0 + β1X1 + β2X2 + … + βpXp + ε
dove, F è una variabile latente formata dalla combinazione lineare della variabile dipendente, X1, X2,… XP è la variabile indipendente p, ε è il termine di errore e β0, β1, β2,…, βp sono i coefficienti discriminanti.
Un modello a probabilità lineare
Un modello a probabilità lineare (LPM) è un modello di regressione in cui la variabile di risultato è binaria, e una o più variabili esplicative sono usate per predire il risultato. Le variabili esplicative possono essere esse stesse binarie o continue. Se la classificazione coinvolge una variabile dipendente binaria e le variabili indipendenti includono quelle non metriche, è meglio applicare modelli di probabilità lineari.
I risultati binari sono ovunque: se una persona è morta o no, si è rotta un’anca, ha l’ipertensione o il diabete, ecc.
In genere vogliamo capire qual è la probabilità del risultato binario date le variabili esplicative.
Possiamo effettivamente utilizzare il nostro modello lineare per farlo, è molto semplice capire perché. Se Y è un indicatore o una variabile dummy, allora E è la proporzione di 1 dato X, che interpretiamo come probabilità di Y dato X.
Possiamo quindi interpretare i parametri come il cambiamento nella probabilità di Y quando X cambia di una unità o per un piccolo cambiamento di X Per esempio, se modelliamo , potremmo interpretare β1 come il cambiamento nella probabilità di morte per un anno in più di età
Analisi multivariata della varianza e della covarianza
L’analisi multivariata della varianza (MANOVA) è un’estensione della comune analisi della varianza (ANOVA). Nell’ANOVA, si studiano le differenze tra le medie di vari gruppi su una variabile a risposta singola. Nella MANOVA, il numero di variabili di risposta è aumentato a due o più. L’ipotesi riguarda un confronto tra i vettori delle medie di gruppo. Una MANOVA ha uno o più fattori (ciascuno con due o più livelli) e due o più variabili dipendenti. I calcoli sono estensioni dell’approccio del modello lineare generale usato per l’ANOVA.
Analisi di correlazione canonica
L’analisi di correlazione canonica è lo studio delle relazioni lineari tra due serie di variabili. È l’estensione multivariata dell’analisi di correlazione.
Canonical Correlation Analysis è usata per due scopi tipici :-
- Riduzione dei dati
- Interpretazione dei dati
Si potrebbero calcolare tutte le correlazioni tra le variabili da un insieme (p) alle variabili del secondo insieme (q), tuttavia l’interpretazione è difficile quando pq è grande.
L’analisi di correlazione canonica ci permette di riassumere le relazioni in un numero minore di statistiche, conservando le sfaccettature principali delle relazioni. In un certo senso, la motivazione della correlazione canonica è molto simile all’analisi delle componenti principali.
Structural Equation Modelling
Structural equation modeling è una tecnica di analisi statistica multivariata che viene usata per analizzare le relazioni strutturali. È un quadro estremamente ampio e flessibile per l’analisi dei dati, forse meglio pensato come una famiglia di metodi correlati piuttosto che come una singola tecnica.
SEM in una singola analisi può valutare la causalità presunta tra un insieme di costrutti dipendenti e indipendenti, cioè la convalida del modello strutturale e i carichi degli elementi osservati (misure) sulle loro variabili latenti attese (costrutti), cioè la convalida del modello di misurazione. L’analisi combinata della misurazione e del modello strutturale permette di analizzare gli errori di misurazione delle variabili osservate come parte integrante del modello, e l’analisi dei fattori combinata in un’unica operazione con il test delle ipotesi.
Tecnica dell’interdipendenza
La tecnica dell’interdipendenza è un tipo di relazione che le variabili non possono essere classificate come dipendenti o indipendenti.
Si tratta di svelare le relazioni tra variabili e/o soggetti senza assumere esplicitamente distribuzioni specifiche per le variabili. L’idea è quella di descrivere i modelli nei dati senza fare ipotesi (molto) forti sulle variabili.
Analisi dei fattori
L’analisi dei fattori è un modo per condensare i dati di molte variabili in poche variabili. Per questo motivo, è anche chiamata a volte “riduzione delle dimensioni”. Raggruppa le variabili con alta correlazione. L’analisi dei fattori include tecniche come l’analisi delle componenti principali e l’analisi dei fattori comuni.
Questo tipo di tecnica è usata come passo di pre-elaborazione per trasformare i dati prima di usare altri modelli. Quando i dati hanno troppe variabili, la performance delle tecniche multivariate non è al livello ottimale, poiché i modelli sono più difficili da trovare. Usando l’analisi dei fattori, i modelli diventano meno diluiti e più facili da analizzare.
Analisi dei cluster
L’analisi dei cluster è una classe di tecniche che sono usate per classificare oggetti o casi in gruppi relativi chiamati cluster. Nell’analisi dei cluster, non ci sono informazioni preliminari sul gruppo o sull’appartenenza al cluster per nessuno degli oggetti.
- Mentre si fa l’analisi dei cluster, noi prima dividiamo l’insieme dei dati in gruppi basati sulla somiglianza dei dati e poi assegniamo le etichette ai gruppi.
- Il vantaggio principale del clustering rispetto alla classificazione è che è adattabile ai cambiamenti e aiuta a individuare le caratteristiche utili che distinguono i diversi gruppi.
L’analisi dei cluster è usata in applicazioni di rilevamento di outlier come il rilevamento di frodi con carta di credito. Come funzione di data mining, la cluster analysis serve come strumento per ottenere una visione della distribuzione dei dati per osservare le caratteristiche di ogni cluster.
Multidimensional Scaling
Multidimensional scaling (MDS) è una tecnica che crea una mappa che visualizza le posizioni relative di diversi oggetti, data solo una tabella delle distanze tra loro. La mappa può consistere di una, due, tre, o anche più dimensioni. Il programma calcola la soluzione metrica o non metrica. La tabella delle distanze è nota come matrice di prossimità. Nasce direttamente dagli esperimenti o indirettamente come matrice di correlazione.
Analisi delle corrispondenze
L’analisi delle corrispondenze è un metodo per visualizzare le righe e le colonne di una tabella di dati non negativi come punti in una mappa, con una specifica interpretazione spaziale. I dati sono di solito contati in una tabulazione incrociata, anche se il metodo è stato esteso a molti altri tipi di dati usando opportune trasformazioni dei dati. Per le tabulazioni incrociate, il metodo può essere considerato per spiegare l’associazione tra le righe e le colonne della tabella come misurato dalla statistica chi-quadro di Pearson. Il metodo ha diverse somiglianze con l’analisi delle componenti principali, in quanto colloca le righe o le colonne in uno spazio ad alta densità e poi trova un sottospazio che si adatta meglio, di solito un piano, in cui approssimare i punti.
Una tabella di corrispondenza è una qualsiasi matrice rettangolare a due vie di quantità non negative che indica la forza di associazione tra la riga e la colonna della tabella. L’esempio più comune di una tabella di corrispondenza è una tabella di contingenza, in cui le voci di riga e colonna si riferiscono alle categorie di due variabili categoriche, e le quantità nelle celle della tabella sono frequenze.
L’obiettivo dell’analisi multivariata
(1) Riduzione dei dati o semplificazione strutturale: Questo aiuta i dati ad essere semplificati il più possibile senza sacrificare informazioni preziose. Questo renderà l’interpretazione più facile.
(2) Ordinamento e raggruppamento: Quando abbiamo variabili multiple, si creano gruppi di oggetti o variabili “simili”, sulla base delle caratteristiche misurate.
(3) Indagine sulla dipendenza tra le variabili: La natura delle relazioni tra le variabili è interessante. Tutte le variabili sono reciprocamente indipendenti o una o più variabili dipendono dalle altre?
(4) Predizione Le relazioni tra le variabili: devono essere determinate allo scopo di predire i valori di una o più variabili sulla base di osservazioni sulle altre variabili.
(5) Costruzione e test di ipotesi. Specifiche ipotesi statistiche, formulate in termini di parametri di popolazioni multivariate, vengono testate. Questo può essere fatto per convalidare le ipotesi o per rafforzare le convinzioni precedenti.
Leggi anche: Introduzione alle tecniche di campionamento
Processo di costruzione del modello
La costruzione del modello – la scelta dei predittori – è una di quelle abilità in statistica che è difficile da raccontare. È difficile stabilire i passi, perché ad ogni passo, si deve valutare la situazione e prendere decisioni sul passo successivo. Ma ecco alcuni dei passi da tenere a mente.
La parte primaria (dalla prima alla terza fase) si occupa degli obiettivi dell’analisi, delle preoccupazioni sullo stile dell’analisi e della verifica delle ipotesi. La seconda parte si occupa dei problemi relativi alla stima del modello, all’interpretazione e alla convalida del modello. Di seguito è riportato il diagramma di flusso generale per costruire un modello appropriato utilizzando qualsiasi applicazione delle tecniche delle variabili-
I presupposti del modello
La previsione delle relazioni tra variabili non è un compito facile. Ogni modello ha i suoi presupposti. Le ipotesi più importanti alla base dell’analisi multivariata sono la normalità, l’omoscedasticità, la linearità e l’assenza di errori correlati. Se il set di dati non segue le ipotesi, il ricercatore ha bisogno di fare un preprocessing. Mancare questo passo può causare modelli errati che producono risultati falsi e inaffidabili.
Sommario della statistica multivariata
La chiave della statistica multivariata è capire concettualmente la relazione tra le tecniche riguardo a:
- I tipi di problemi per cui ogni tecnica è adatta.
- L’obiettivo(i) di ogni tecnica.
- La struttura dei dati richiesta per ogni tecnica,
- Considerazioni sul campionamento per ogni tecnica.
- Modello matematico sottostante, o la sua mancanza, di ogni tecnica.
- Potenziale per un uso complementare delle tecniche
Infine, vorrei concludere che ogni tecnica ha anche alcuni punti di forza e di debolezza che dovrebbero essere chiaramente compresi dall’analista prima di tentare di interpretare i risultati della tecnica. Gli attuali pacchetti statistici (SAS, SPSS, S-Plus, e altri) rendono sempre più facile eseguire una procedura, ma i risultati possono essere disastrosamente mal interpretati senza un’adeguata attenzione.
Una delle migliori citazioni di Albert Einstein che spiega la necessità dell’analisi multivariata è: “Se non puoi spiegarla semplicemente, non la capisci abbastanza bene”.
Ho cercato di fornire ogni aspetto dell’analisi multivariata. In breve, l’analisi multivariata dei dati può aiutare ad esplorare le strutture dei dati dei campioni studiati.
Iscrivetevi ai corsi gratuiti di Great Learning Academy e aggiornatevi oggi stesso!