- Inleiding tot multivariate analyse
- Geschiedenis
- Een overzicht
- Voordelen en Nadelen
- Classificatiegrafiek van Multivariate Technieken
- Multivariate Analyse van Variantie en Covariantie
- Het doel van multivariate analyse
- Modelbouwproces
- Modelveronderstellingen
- Samenvatting
Bijdragen geleverd door: Harsha Nimkar
LinkedIn Profile: https://www.linkedin.com/in/harsha-nimkar-8b117882/
Inleiding
Multivariaat betekent dat er meerdere afhankelijke variabelen zijn die leiden tot één uitkomst. Dit verklaart dat de meeste problemen in de echte wereld multivariaat zijn. We kunnen bijvoorbeeld het weer van een jaar niet voorspellen op basis van het seizoen. Er zijn meerdere factoren zoals vervuiling, vochtigheid, neerslag, enz. Hier laten wij u kennismaken met multivariate analyse, de geschiedenis ervan, en de toepassing op verschillende gebieden.
De geschiedenis van multivariate analyse
In 1928 presenteerde Wishart zijn paper. The Precise distribution of the sample covariance matrix of the multivariate normal population, dat de aanzet geeft tot MVA.
In de jaren dertig van de vorige eeuw hebben R.A. Fischer, Hotelling, S.N. Roy, en B.L. Xu et al. veel fundamenteel theoretisch werk verricht op het gebied van multivariate analyse. In die tijd werd zij op grote schaal gebruikt op het gebied van de psychologie, het onderwijs en de biologie.
In het midden van de jaren ’50, met de opkomst en uitbreiding van computers, begon multivariate analyse een grote rol te spelen in de geologische, meteorologische. Medische en sociale en wetenschap. Van toen af aan werden nieuwe theorieën en nieuwe methoden voorgesteld en voortdurend door de praktijk getest en tegelijkertijd werden meer toepassingsgebieden ontgonnen. Met behulp van moderne computers kunnen we de methodologie van multivariate analyse toepassen om tamelijk complexe statistische analyses uit te voeren.
Multivariate analyse: Een overzicht
Voorstel dat u een project heeft toegewezen gekregen om de verkoop van het bedrijf te voorspellen. U kunt niet simpelweg zeggen dat ‘X’ de factor is die de verkoop zal beïnvloeden.
We weten dat er meerdere aspecten of variabelen zijn die de verkoop zullen beïnvloeden. Het analyseren van de variabelen die de verkoop het sterkst beïnvloeden, kan alleen worden gedaan met multivariate analyse. En in de meeste gevallen zal het niet slechts één variabele zijn.
Zoals bekend hangt de verkoop af van de categorie van het product, de productiecapaciteit, de geografische locatie, de marketinginspanning, de aanwezigheid van het merk op de markt, de analyse van de concurrent, de kosten van het product, en nog vele andere variabelen. De verkoop is slechts één voorbeeld; deze studie kan op elk onderdeel van de meeste gebieden worden uitgevoerd.
Multivariate analyse wordt op grote schaal gebruikt in vele industrieën, zoals de gezondheidszorg. In het recente geval van COVID-19 voorspelde een team van datawetenschappers dat Delhi tegen eind juli 2020 meer dan 5lakh COVID-19-patiënten zou tellen. Deze analyse was gebaseerd op meerdere variabelen, zoals overheidsbesluit, gedrag van het publiek, bevolking, bezetting, openbaar vervoer, gezondheidszorgdiensten en algemene immuniteit van de gemeenschap.
Ook de gegevensanalyse van Murtaza Haider van de Ryerson universiteit over de kust van het appartement en wat leidt tot een stijging van de kosten of daling van de kosten, is gebaseerd op multivariate analyse. Volgens die studie was een van de belangrijkste factoren de vervoersinfrastructuur. Mensen dachten eraan een huis te kopen op een locatie met beter vervoer, en volgens het analyserende team was dit een van de variabelen waaraan in het begin van de studie het minst werd gedacht. Maar met de analyse, kwam dit in enkele uiteindelijke variabelen invloed uitkomst.
Multivariate analyse is onderdeel van verkennende data-analyse. Op basis van MVA kunnen we het diepere inzicht van meerdere variabelen visualiseren.
Er zijn meer dan 20 verschillende methoden om multivariate analyse uit te voeren en welke methode het beste is, hangt af van het type gegevens en het probleem dat je probeert op te lossen.
Multivariate analyse (MVA) is een statistische procedure voor de analyse van gegevens waarbij sprake is van meer dan één soort meting of waarneming. Het kan ook betekenen dat problemen worden opgelost waarbij meer dan één afhankelijke variabele tegelijk met andere variabelen wordt geanalyseerd.
Voordelen en nadelen van Multivariate Analyse
Voordelen
- Het belangrijkste voordeel van multivariate analyse is dat, omdat er meer dan één factor van onafhankelijke variabelen in aanmerking wordt genomen die de variabiliteit van afhankelijke variabelen beïnvloeden, de getrokken conclusie nauwkeuriger is.
- De conclusies zijn realistischer en staan dichter bij de werkelijke situatie.
Nadelen
- Het belangrijkste nadeel van MVA is dat het nogal ingewikkelde berekeningen vereist om tot een bevredigende conclusie te komen.
- Veel waarnemingen voor een groot aantal variabelen moeten worden verzameld en getabelleerd; het is een nogal tijdrovend proces.
Classificatiegrafiek van multivariate technieken
De keuze van de juiste multivariate techniek hangt af van-
a) Zijn de variabelen onderverdeeld in onafhankelijke en afhankelijke classificatie?
b) Zo ja, hoeveel variabelen worden in één analyse als afhankelijke variabelen behandeld?
c) Hoe worden de variabelen, zowel de afhankelijke als de onafhankelijke, gemeten?
De techniek van multivariate analyse kan in twee grote categorieën worden ingedeeld, namelijk, Deze indeling is afhankelijk van de vraag: zijn de betrokken variabelen afhankelijk van elkaar of niet?
Als het antwoord ja is: We hebben Afhankelijkheid methoden.
Als het antwoord nee is: Hebben we Interdependentie methoden.
Afhankelijkheidstechniek: Afhankelijkheidstechnieken zijn soorten multivariate analysetechnieken die worden gebruikt wanneer een of meer van de variabelen kunnen worden geïdentificeerd als afhankelijke variabelen en de overige variabelen kunnen worden geïdentificeerd als onafhankelijke.
Ook lezen: Wat is Big Data Analytics?
Meervoudige regressie
Meervoudige regressieanalyse- Meervoudige regressie is een uitbreiding van eenvoudige lineaire regressie. Het wordt gebruikt wanneer we de waarde van een variabele willen voorspellen op basis van de waarde van twee of meer andere variabelen. De variabele die we willen voorspellen wordt de afhankelijke variabele genoemd (of soms, de uitkomst-, doel-, of criteriumvariabele). Meervoudige regressie gebruikt meerdere “x”-variabelen voor elke onafhankelijke variabele: (x1)1, (x2)1, (x3)1, Y1)
Ook lezen: Lineaire regressie in Machine Learning
Conjoint analyse
‘Conjoint analyse’ is een op enquêtes gebaseerde statistische techniek die wordt gebruikt in marktonderzoek en die helpt bepalen hoe mensen verschillende attributen (kenmerk, functie, voordelen) waarderen die samen een individueel product of dienst vormen. Het doel van conjoint analysis is het bepalen van de keuzes of beslissingen van de eindgebruiker, die het beleid/product/dienst aansturen. Vandaag de dag wordt het gebruikt op vele gebieden, waaronder marketing, productbeheer, operations research, enz.
Het wordt vaak gebruikt bij het testen van de reactie van de consument op nieuwe producten, bij de acceptatie van advertenties en bij het ontwerpen van diensten. Conjoint-analysetechnieken kunnen ook worden aangeduid als multi-attribute compositional modeling, discrete choice modeling, of stated preference onderzoek, en is onderdeel van een bredere set van trade-off analyse-instrumenten die worden gebruikt voor systematische analyse van beslissingen.
Er zijn verschillende conjoint technieken, waarvan er enkele CBC (Choice-based conjoint) of ACBC (Adaptive CBC) zijn.
Multiple Discriminant Analysis
Het doel van discriminantanalyse is het groepslidmaatschap van monsters uit een groep voorspellers te bepalen door lineaire combinaties van de variabelen te vinden die de verschillen tussen de bestudeerde variabelen maximaliseren, een model op te stellen om objecten met minimale fouten in de juiste populaties te sorteren.
Discriminerende analyse leidt een vergelijking af als een lineaire combinatie van de onafhankelijke variabelen die het best zal discrimineren tussen de groepen in de afhankelijke variabele. Deze lineaire combinatie staat bekend als de discriminantfunctie. De aan elke onafhankelijke variabele toegekende gewichten worden gecorrigeerd voor de onderlinge relaties tussen alle variabelen. De gewichten worden discriminantcoëfficiënten genoemd.
De discriminantvergelijking:
F = β0 + β1X1 + β2X2 + … + βpXp + ε
waar, F is een latente variabele gevormd door de lineaire combinatie van de afhankelijke variabele, X1, X2,… XP is de p onafhankelijke variabele, ε is de foutterm en β0, β1, β2,…, βp is de discriminant coëfficiënten.
Een lineair waarschijnlijkheidsmodel
Een lineair waarschijnlijkheidsmodel (LPM) is een regressiemodel waarbij de uitkomstvariabele binair is, en een of meer verklarende variabelen worden gebruikt om de uitkomst te voorspellen. De verklarende variabelen kunnen zelf binair of continu zijn. Als de classificatie een binaire afhankelijke variabele betreft en de onafhankelijke variabelen niet-metrische variabelen omvatten, is het beter lineaire waarschijnlijkheidsmodellen toe te passen.
Binaire uitkomsten komen overal voor: of iemand al dan niet is overleden, een heup heeft gebroken, hypertensie of diabetes heeft, enz.
We willen doorgaans begrijpen wat de kans op de binaire uitkomst is gegeven verklarende variabelen.
Hiervoor kunnen we eigenlijk ons lineaire model gebruiken, het is heel eenvoudig te begrijpen waarom. Als Y een indicator of dummy-variabele is, dan is E de proportie van 1’s gegeven X, die we interpreteren als de waarschijnlijkheid van Y gegeven X.
We kunnen de parameters dan interpreteren als de verandering in de kans op Y wanneer X met één eenheid verandert of voor een kleine verandering in X Bijvoorbeeld, als we model , kunnen we β1 interpreteren als de verandering in de kans op overlijden voor een extra jaar
Multivariate variantieanalyse en covariantie
Multivariate variantieanalyse (MANOVA) is een uitbreiding van de gewone variantieanalyse (ANOVA). In ANOVA worden verschillen tussen verschillende groepsgemiddelden op een enkelvoudige responsvariabele bestudeerd. In MANOVA wordt het aantal responsvariabelen verhoogd tot twee of meer. De hypothese betreft een vergelijking van vectoren van groepsgemiddelden. Een MANOVA heeft een of meer factoren (elk met twee of meer niveaus) en twee of meer afhankelijke variabelen. De berekeningen zijn uitbreidingen van de algemene lineaire modelbenadering die voor ANOVA wordt gebruikt.
Canonieke correlatieanalyse
Canonieke correlatieanalyse is de studie van de lineaire relaties tussen twee reeksen variabelen. Het is de multivariate uitbreiding van correlatieanalyse.
CCA wordt gebruikt voor twee typische doeleinden :-
- Data Reductie
- Data Interpretatie
Je zou alle correlaties kunnen berekenen tussen variabelen uit de ene set (p) naar de variabelen in de tweede set (q), maar de interpretatie is moeilijk wanneer pq groot is.
Canonical Correlation Analysis stelt ons in staat de relaties samen te vatten in een kleiner aantal statistieken, terwijl de belangrijkste facetten van de relaties behouden blijven. In zekere zin is de motivatie voor canonieke correlatie zeer vergelijkbaar met principale componentenanalyse.
Structural Equation Modelling
Structural equation modeling is een multivariate statistische analysetechniek die wordt gebruikt om structurele relaties te analyseren. Het is een uiterst breed en flexibel kader voor gegevensanalyse, dat wellicht beter kan worden beschouwd als een familie van verwante methoden dan als één enkele techniek.
SEM in één enkele analyse kan de veronderstelde causaliteit tussen een reeks afhankelijke en onafhankelijke constructen beoordelen, d.w.z. validatie van het structurele model, en de ladingen van waargenomen items (metingen) op hun verwachte latente variabelen (constructen), d.w.z. validatie van het meetmodel. De gecombineerde analyse van het meet- en het structuurmodel maakt het mogelijk de meetfouten van de waargenomen variabelen te analyseren als een integrerend deel van het model, en de factoranalyse in één operatie te combineren met de hypothesetoetsing.
Interdependentietechniek
Interdependentietechnieken zijn een type relatie waarbij variabelen niet als afhankelijk of onafhankelijk kunnen worden geclassificeerd.
Het heeft tot doel relaties tussen variabelen en/of subjecten te ontrafelen zonder expliciet specifieke verdelingen voor de variabelen aan te nemen. Het idee is om de patronen in de gegevens te beschrijven zonder (zeer) sterke veronderstellingen over de variabelen te maken.
Factoranalyse
Factoranalyse is een manier om de gegevens in veel variabelen samen te vatten tot slechts een paar variabelen. Om deze reden wordt het ook wel “dimensievermindering” genoemd. Het maakt de groepering van variabelen met een hoge correlatie. Factoranalyse omvat technieken zoals principale componentenanalyse en gemeenschappelijke factoranalyse.
Dit soort techniek wordt gebruikt als voorbewerkingsstap om de gegevens te transformeren voordat andere modellen worden gebruikt. Wanneer de gegevens te veel variabelen bevatten, zijn de prestaties van multivariate technieken niet optimaal, omdat het moeilijker is patronen te vinden. Door factoranalyse te gebruiken, worden de patronen minder verwaterd en gemakkelijker te analyseren.
Clusteranalyse
Clusteranalyse is een klasse van technieken die worden gebruikt om objecten of gevallen in relatieve groepen, clusters genaamd, te classificeren. Bij clusteranalyse is er geen voorafgaande informatie over de groep of het clusterschap voor een van de objecten.
- Bij het uitvoeren van clusteranalyse verdelen we eerst de gegevensverzameling in groepen op basis van gegevensgelijkenis en wijzen we vervolgens de labels aan de groepen toe.
- Het belangrijkste voordeel van clustering boven classificatie is dat het zich kan aanpassen aan veranderingen en helpt nuttige kenmerken te selecteren die verschillende groepen onderscheiden.
Clusteranalyse wordt gebruikt in toepassingen voor het opsporen van uitschieters, zoals het opsporen van creditcardfraude. Als dataminingfunctie dient clusteranalyse als hulpmiddel om inzicht te krijgen in de verdeling van gegevens om de kenmerken van elke cluster te observeren.
Multidimensional Scaling
Multidimensional scaling (MDS) is een techniek waarmee een kaart wordt gemaakt die de relatieve posities van verschillende objecten weergeeft, gegeven slechts een tabel met de afstanden tussen die objecten. De kaart kan bestaan uit één, twee, drie of zelfs meer dimensies. Het programma berekent ofwel de metrische ofwel de niet-metrische oplossing. De tabel van afstanden staat bekend als de nabijheidsmatrix. Deze ontstaat hetzij direct uit experimenten, hetzij indirect als correlatiematrix.
Correspondentieanalyse
Correspondentieanalyse is een methode om de rijen en kolommen van een tabel met niet-negatieve gegevens te visualiseren als punten in een kaart, met een specifieke ruimtelijke interpretatie. De gegevens worden meestal geteld in een kruistabel, hoewel de methode is uitgebreid tot vele andere soorten gegevens met behulp van geschikte gegevenstransformaties. Voor kruistabellen kan de methode worden beschouwd als een verklaring van het verband tussen de rijen en kolommen van de tabel, zoals gemeten door de Pearson chi-kwadraat statistiek. De methode vertoont een aantal overeenkomsten met principale componentenanalyse, in die zin dat de rijen of kolommen in een hoogdimensionale ruimte worden gesitueerd en vervolgens een best passende deelruimte, meestal een vlak, wordt gevonden waarin de punten kunnen worden benaderd.
Een correspondentietabel is een rechthoekige tweerichtingsreeks van niet-negatieve grootheden die de sterkte van de associatie tussen de rij- en de kolompositie van de tabel aangeeft. Het meest voorkomende voorbeeld van een correspondentietabel is een contingentietabel, waarin rij- en kolomgegevens verwijzen naar de categorieën van twee categorische variabelen, en de grootheden in de cellen van de tabel frequenties zijn.
Het doel van multivariate analyse
(1) Gegevensreductie of structurele vereenvoudiging: Hiermee worden gegevens zo eenvoudig mogelijk gemaakt zonder waardevolle informatie op te offeren. Dit maakt de interpretatie gemakkelijker.
(2) Sorteren en groeperen: Wanneer we meerdere variabelen hebben, worden groepen van “soortgelijke” objecten of variabelen gemaakt, op basis van gemeten kenmerken.
(3) Onderzoek naar de afhankelijkheid tussen variabelen: De aard van de relaties tussen variabelen is van belang. Zijn alle variabelen onderling onafhankelijk of zijn een of meer variabelen afhankelijk van de andere?
(4) Voorspellingsrelaties tussen variabelen: moeten worden vastgesteld met het oog op het voorspellen van de waarden van een of meer variabelen op basis van waarnemingen betreffende de andere variabelen.
(5) Opstellen en toetsen van hypothesen. Specifieke statistische hypothesen, geformuleerd in termen van de parameters van multivariate populaties, worden getest. Dit kan worden gedaan om veronderstellingen te valideren of om eerdere overtuigingen te versterken.
Lees ook: Inleiding tot steekproeftechnieken
Modelbouwproces
Modelbouw – het kiezen van voorspellers – is een van die vaardigheden in de statistiek die moeilijk te vertellen is. Het is moeilijk om de stappen uit te leggen, omdat je bij elke stap de situatie moet evalueren en beslissingen moet nemen over de volgende stap. Maar hier zijn enkele van de stappen om in gedachten te houden.
Het eerste deel (stap een tot en met stap drie) gaat over de analysedoelen, de zorgen over de analysestijl, en het testen op aannames. Het tweede deel behandelt de problemen in verband met de modelraming, de interpretatie en de modelvalidering. Hieronder volgt het algemene stroomschema voor het bouwen van een geschikt model door middel van een toepassing van de variabelentechnieken-
Modelveronderstellingen
Het voorspellen van relaties tussen variabelen is geen gemakkelijke taak. Elk model heeft zijn aannames. De belangrijkste veronderstellingen bij multivariate analyse zijn normaliteit, homoscedasticiteit, lineariteit en de afwezigheid van gecorreleerde fouten. Indien de dataset niet aan de veronderstellingen voldoet, moet de onderzoeker een zekere voorbewerking uitvoeren. Het missen van deze stap kan leiden tot onjuiste modellen die onjuiste en onbetrouwbare resultaten opleveren.
Multivariate Statistiek Samenvatting
De sleutel tot multivariate statistiek is het conceptueel begrijpen van de relatie tussen technieken met betrekking tot:
- Het soort problemen waarvoor elke techniek geschikt is.
- De doelstelling(en) van elke techniek.
- De vereiste gegevensstructuur voor elke techniek,
- Bemonsteringsoverwegingen voor elke techniek.
- Onderliggend wiskundig model, of het ontbreken daarvan, van elke techniek.
- Potentieel voor complementair gebruik van technieken
Ten slotte wil ik concluderen dat elke techniek ook bepaalde sterke en zwakke punten heeft die de analist duidelijk moet begrijpen voordat hij probeert de resultaten van de techniek te interpreteren. De huidige statistische pakketten (SAS, SPSS, S-Plus, en anderen) maken het steeds eenvoudiger om een procedure uit te voeren, maar de resultaten kunnen rampzalig verkeerd worden geïnterpreteerd als er niet voldoende zorg aan wordt besteed.
Een van de beste citaten van Albert Einstein die de noodzaak van Multivariate analyse uitlegt is: “Als je het niet eenvoudig kunt uitleggen, begrijp je het niet goed genoeg.”
Ik heb geprobeerd elk aspect van Multivariate analyse te geven. Kortom, Multivariate data-analyse kan helpen om datastructuren van de onderzochte steekproeven te verkennen.
Schrijf u in met de gratis cursussen van Great Learning Academy en bekwaam u vandaag nog bij!