Przegląd analizy wielowariantowej | Co to jest analiza wielowariantowa i proces tworzenia modelu?

Analiza wielowariantowa
Share
Facebook
Twitter
WhatsApp
WhatsApp

  1. Wprowadzenie do analizy wielowariantowej
  2. Historia
  3. Przegląd
  4. .

  5. Wady i zalety
  6. Klasyfikacja technik wielowariantowych
  7. Wielowariantowa analiza wariancji i kowariancji
  8. Cel analizy wielowariantowej
  9. Proces budowania modelu
  10. Założenia modelu
  11. Podsumowanie

Przypisy: Harsha Nimkar
LinkedIn Profile: https://www.linkedin.com/in/harsha-nimkar-8b117882/

Wprowadzenie

Wieloczynnikowość oznacza zaangażowanie wielu zmiennych zależnych skutkujących jednym wynikiem. To wyjaśnia, że większość problemów w świecie rzeczywistym jest wieloczynnikowa. Na przykład, nie możemy przewidzieć pogody w każdym roku w oparciu o sezon. Istnieje wiele czynników, takich jak zanieczyszczenie, wilgotność, opady itp. Tutaj wprowadzimy Cię do analizy wielowymiarowej, jej historii i zastosowania w różnych dziedzinach.

Historia analizy wielowymiarowej

W 1928 roku Wishart przedstawił swoją pracę. The Precise distribution of the sample covariance matrix of the multivariate normal population, która zapoczątkowała MVA.

W latach 30-tych XX wieku R.A. Fischer, Hotelling, S.N. Roy oraz B.L. Xu et al. wykonali wiele fundamentalnych prac teoretycznych dotyczących analizy wielowymiarowej. W tym czasie była ona szeroko stosowana w dziedzinie psychologii, edukacji i biologii.

W połowie lat pięćdziesiątych, wraz z pojawieniem się i ekspansją komputerów, analiza wielowymiarowa zaczęła odgrywać dużą rolę w geologii, meteorologii. medycynie i naukach społecznych i ścisłych. Od tego czasu, nowe teorie i nowe metody zostały zaproponowane i testowane stale przez praktykę, a w tym samym czasie, więcej pól aplikacji zostały wykorzystane. Przy pomocy nowoczesnych komputerów możemy stosować metodologię analizy wielowymiarowej do dość złożonych analiz statystycznych.

Analiza badań rynkowych, usługi badania rynku - Madras ...

Analiza wielowymiarowa: An overview

Załóżmy, że przydzielono Ci projekt, którego celem jest przewidywanie sprzedaży firmy. Nie można po prostu powiedzieć, że „X” jest czynnikiem, który wpłynie na sprzedaż.

Wiemy, że istnieje wiele aspektów lub zmiennych, które będą miały wpływ na sprzedaż. Aby przeanalizować zmienne, które będą miały wpływ na sprzedaż głównie, można znaleźć tylko z analizy wielowariantowej. I w większości przypadków, nie będzie to tylko jedna zmienna.

Jak wiemy, sprzedaż będzie zależeć od kategorii produktu, zdolności produkcyjnych, położenie geograficzne, wysiłek marketingowy, obecność marki na rynku, analiza konkurentów, koszt produktu, i wiele innych zmiennych. Sprzedaż jest tylko jednym z przykładów; badanie to może być realizowane w dowolnym dziale większości dziedzin.

Analiza wielowariantowa jest szeroko stosowana w wielu branżach, np. w służbie zdrowia. W ostatnim przypadku COVID-19, zespół naukowców zajmujących się danymi przewidział, że Delhi będzie miało ponad 5lakh pacjentów COVID-19 do końca lipca 2020 roku. Analiza ta opierała się na wielu zmiennych, takich jak decyzja rządu, zachowanie społeczeństwa, populacja, zawód, transport publiczny, usługi opieki zdrowotnej i ogólna odporność społeczności.

Jak na studium analizy danych przez Murtaza Haider z Ryerson University na wybrzeżu mieszkania i co prowadzi do wzrostu kosztów lub zmniejszenia kosztów, jest również oparty na analizie wielowymiarowej. Zgodnie z tym badaniem, jednym z głównych czynników była infrastruktura transportowa. Ludzie myśleli o zakupie domu w lokalizacji, która zapewnia lepszy transport, a według zespołu analizującego, jest to jedna z najmniej myślących zmiennych na początku badania. Ale z analizy, to przyszedł w kilku ostatecznych zmiennych wpływających outcome.

Analiza wielowariantowa jest częścią eksploracyjnej analizy danych. W oparciu o MVA, możemy zwizualizować głębszy wgląd w wiele zmiennych.

Istnieje ponad 20 różnych metod przeprowadzania analizy wielowariantowej, a to, która metoda jest najlepsza, zależy od rodzaju danych i problemu, który próbujesz rozwiązać.

Analiza wielowariantowa (MVA) jest procedurą statystyczną służącą do analizy danych obejmujących więcej niż jeden rodzaj pomiaru lub obserwacji. Może również oznaczać rozwiązywanie problemów, w których więcej niż jedna zmienna zależna jest analizowana jednocześnie z innymi zmiennymi.

Wady i zalety analizy wielozmiennowej

Wady

.

  • Główną zaletą analizy wielowariantowej jest to, że ponieważ bierze pod uwagę więcej niż jeden czynnik zmiennych niezależnych, które wpływają na zmienność zmiennych zależnych, wyciągnięte wnioski są bardziej dokładne.
  • Wnioski są bardziej realistyczne i bliższe rzeczywistej sytuacji życiowej.

Wady

  • Główną wadą MVA jest to, że wymaga raczej złożonych obliczeń, aby dojść do zadowalających wniosków.
  • Mnóstwo obserwacji dla dużej liczby zmiennych musi być zebranych i zestawionych w tabelach; jest to raczej czasochłonny proces.

Klasyfikacja technik wielowariantowych

Wybór odpowiedniej techniki wielowariantowej zależy od-

Multivariate Data Analysis: An Overview | SpringerLink

a) Czy zmienne są podzielone na klasyfikację niezależną i zależną?

b) Jeśli tak, to ile zmiennych jest traktowanych jako zależne w pojedynczej analizie?

c) Jak mierzone są zmienne, zarówno zależne jak i niezależne?

Multivariate analysis technique can be classified into two broad categories viz., This classification depends upon the question: are the involved variables dependent on each other or not?

Jeśli odpowiedź brzmi tak: Mamy metody Dependence.
Jeśli odpowiedź brzmi nie: Mamy metody współzależności (Interdependence methods).

Techniki zależności: Techniki zależności to rodzaje technik analizy wielowariantowej, które są stosowane, gdy jedna lub więcej zmiennych może być zidentyfikowana jako zmienne zależne, a pozostałe zmienne mogą być zidentyfikowane jako niezależne.

Also Read: What is Big Data Analytics?

Regresja wielokrotna

Analiza regresji wielokrotnej- Regresja wielokrotna jest rozszerzeniem prostej regresji liniowej. Stosuje się ją, gdy chcemy przewidzieć wartość zmiennej na podstawie wartości dwóch lub więcej innych zmiennych. Zmienna, którą chcemy przewidzieć, nazywana jest zmienną zależną (lub czasami zmienną wyniku, celu lub kryterium). Regresja wieloraka wykorzystuje wiele zmiennych „x” dla każdej zmiennej niezależnej: (x1)1, (x2)1, (x3)1, Y1)

Also Read: Linear Regression in Machine Learning

Conjoint analysis

„Conjoint analysis” to oparta na ankiecie technika statystyczna stosowana w badaniach rynku, która pomaga określić, jak ludzie cenią różne atrybuty (cechę, funkcję, korzyści), które składają się na indywidualny produkt lub usługę. Celem conjoint analysis jest określenie wyborów lub decyzji użytkownika końcowego, co napędza politykę/produkt/usługę. Obecnie jest ona wykorzystywana w wielu dziedzinach, w tym w marketingu, zarządzaniu produktem, badaniach operacyjnych, itp.

Jest ona często wykorzystywana w testowaniu reakcji konsumentów na nowe produkty, w akceptacji reklam i w projektowaniu usług. Techniki analizy conjoint mogą być również określane jako wieloatrybutowe modelowanie kompozycyjne, dyskretne modelowanie wyboru lub badania preferencji stwierdzonych i jest częścią szerszego zestawu narzędzi analizy kompromisów wykorzystywanych do systematycznej analizy decyzji.

Istnieją różne techniki conjoint, niektóre z nich to CBC (Choice-based conjoint) lub ACBC (Adaptive CBC).

Multiple Discriminant Analysis

Celem analizy dyskryminacyjnej jest określenie przynależności do grupy próbek z grupy predyktorów poprzez znalezienie kombinacji liniowych zmiennych, które maksymalizują różnice pomiędzy badanymi zmiennymi, stworzenie modelu sortowania obiektów do odpowiednich populacji z minimalnym błędem.

Analiza dyskryminacyjna wyprowadza równanie jako liniową kombinację niezależnych zmiennych, które będą najlepiej dyskryminować grupy w zmiennej zależnej. Ta liniowa kombinacja jest znana jako funkcja dyskryminacyjna. Wagi przypisane do każdej zmiennej niezależnej są korygowane ze względu na wzajemne powiązania między wszystkimi zmiennymi. Wagi te określa się mianem współczynników dyskryminacji.

Równanie dyskryminacji:

F = β0 + β1X1 + β2X2 + … + βpXp + ε

gdzie, F jest zmienną ukrytą utworzoną przez kombinację liniową zmiennej zależnej, X1, X2,… XP jest p zmiennych niezależnych, ε jest składnikiem błędu, a β0, β1, β2,…, βp są współczynnikami dyskryminacyjnymi.

Liniowy model prawdopodobieństwa

Liniowy model prawdopodobieństwa (LPM) jest modelem regresji, w którym zmienna wynikowa jest binarna, a jedna lub więcej zmiennych objaśniających jest wykorzystywanych do przewidywania wyniku. Zmienne objaśniające mogą być same w sobie binarne lub ciągłe. Jeśli klasyfikacja obejmuje binarną zmienną zależną, a zmienne niezależne są niemetryczne, lepiej jest zastosować liniowe modele prawdopodobieństwa.

Wyniki binarne są wszędzie: czy dana osoba umarła czy nie, złamała biodro, ma nadciśnienie lub cukrzycę, itp.

Zazwyczaj chcemy zrozumieć, jakie jest prawdopodobieństwo wyniku binarnego, biorąc pod uwagę zmienne objaśniające.

Możemy w rzeczywistości użyć naszego modelu liniowego, aby to zrobić, bardzo łatwo jest zrozumieć dlaczego. Jeśli Y jest wskaźnikiem lub zmienną manekinową, to E jest proporcją 1s biorąc pod uwagę X, co interpretujemy jako prawdopodobieństwo Y biorąc pod uwagę X.

Możemy wtedy interpretować parametry jako zmianę prawdopodobieństwa Y, gdy X zmienia się o jedną jednostkę lub dla małej zmiany X Na przykład, jeśli modelujemy , możemy interpretować β1 jako zmianę w prawdopodobieństwie śmierci dla dodatkowego roku życia

Wielowariantowa analiza wariancji i kowariancja

Wielowariantowa analiza wariancji (MANOVA) jest rozszerzeniem zwykłej analizy wariancji (ANOVA). W ANOVA badane są różnice między średnimi różnych grup dla zmiennej o jednej odpowiedzi. W MANOVA, liczba zmiennych odpowiedzi jest zwiększona do dwóch lub więcej. Hipoteza dotyczy porównania wektorów średnich grupowych. MANOVA ma jeden lub więcej czynników (każdy z dwoma lub więcej poziomami) i dwie lub więcej zmiennych zależnych. Obliczenia są rozszerzeniem podejścia ogólnego modelu liniowego stosowanego dla ANOVA.

Kanoniczna analiza korelacji

Kanoniczna analiza korelacji jest badaniem liniowych relacji pomiędzy dwoma zestawami zmiennych. Jest to wielowariantowe rozszerzenie analizy korelacji.

CCA jest używana do dwóch typowych celów :-

  • Redukcja danych
  • Interpretacja danych

Można obliczyć wszystkie korelacje pomiędzy zmiennymi z jednego zbioru (p) a zmiennymi z drugiego zbioru (q), jednak interpretacja jest trudna, gdy pq jest duże.

Kanoniczna Analiza Korelacji pozwala nam podsumować zależności w mniejszej liczbie statystyk, zachowując jednocześnie główne aspekty tych zależności. W pewnym sensie, motywacja dla korelacji kanonicznej jest bardzo podobna do analizy składowych głównych.

Modelowanie równań strukturalnych

Modelowanie równań strukturalnych jest techniką analizy statystycznej, która jest używana do analizy zależności strukturalnych. Jest to niezwykle szeroka i elastyczna metoda analizy danych, o której być może lepiej myśleć jako o rodzinie powiązanych metod, a nie jako o pojedynczej technice.

SEM w pojedynczej analizie może oceniać założoną przyczynowość między zestawem zależnych i niezależnych konstruktów, tj. walidację modelu strukturalnego oraz ładunki obserwowanych pozycji (pomiarów) na ich oczekiwane zmienne ukryte (konstrukty), tj. walidację modelu pomiaru. Łączna analiza modelu pomiarowego i strukturalnego umożliwia analizę błędów pomiaru obserwowanych zmiennych jako integralnej części modelu oraz połączenie w jednej operacji analizy czynnikowej z testowaniem hipotez.

Technika współzależności

Technika współzależności jest typem relacji, w której zmienne nie mogą być klasyfikowane jako zależne lub niezależne.

Celem jest rozwikłanie związków między zmiennymi i/lub podmiotami bez wyraźnego zakładania określonych rozkładów dla zmiennych. Chodzi o to, aby opisać wzorce w danych bez przyjmowania (bardzo) silnych założeń dotyczących zmiennych.

Analiza czynnikowa

Analiza czynnikowa jest sposobem na skondensowanie danych z wielu zmiennych do zaledwie kilku zmiennych. Z tego powodu jest ona również czasami nazywana „redukcją wymiarów”. Umożliwia ona grupowanie zmiennych o wysokiej korelacji. Analiza czynnikowa obejmuje techniki takie jak analiza głównych składowych i wspólna analiza czynnikowa.

Tego typu technika jest używana jako krok wstępnego przetwarzania w celu przekształcenia danych przed użyciem innych modeli. Kiedy dane mają zbyt wiele zmiennych, wydajność technik wielowymiarowych nie jest na optymalnym poziomie, ponieważ trudniej jest znaleźć wzorce. Dzięki zastosowaniu analizy czynnikowej, wzorce stają się mniej rozproszone i łatwiejsze do analizy.

Analiza skupień

Analiza skupień jest klasą technik, które są używane do klasyfikacji obiektów lub przypadków w relatywne grupy zwane skupiskami. W analizie skupień nie ma wcześniejszej informacji o przynależności do grupy lub klastra dla żadnego z obiektów.

  • Podczas wykonywania analizy skupień, najpierw partycjonujemy zbiór danych na grupy w oparciu o podobieństwo danych, a następnie przypisujemy etykiety do grup.
  • Główną zaletą klastrowania w stosunku do klasyfikacji jest to, że jest ono przystosowane do zmian i pomaga wyróżnić użyteczne cechy, które odróżniają różne grupy.

Analiza skupień wykorzystywana jest w aplikacjach wykrywania wartości odstających, takich jak wykrywanie oszustw związanych z kartami kredytowymi. Jako funkcja eksploracji danych, analiza skupień służy jako narzędzie do uzyskania wglądu w rozkład danych w celu obserwacji cech każdego skupiska.

Skalowanie wielowymiarowe

Skalowanie wielowymiarowe (MDS) jest techniką, która tworzy mapę wyświetlającą względne pozycje kilku obiektów, biorąc pod uwagę tylko tabelę odległości między nimi. Mapa może składać się z jednego, dwóch, trzech, lub nawet więcej wymiarów. Program oblicza albo rozwiązanie metryczne, albo niemetryczne. Tablica odległości nazywana jest macierzą bliskości. Powstaje ona albo bezpośrednio z eksperymentów, albo pośrednio jako macierz korelacji.

Analiza korespondencji

Analiza korespondencji jest metodą wizualizacji wierszy i kolumn tabeli danych nieujemnych jako punktów na mapie, z określoną interpretacją przestrzenną. Dane są zazwyczaj liczone w tabelach krzyżowych, choć metoda ta została rozszerzona na wiele innych typów danych przy zastosowaniu odpowiednich przekształceń danych. W przypadku tabel przekrojowych metodę można uznać za wyjaśniającą asocjację między wierszami i kolumnami tabeli, mierzoną za pomocą statystyki chi kwadrat Pearsona. Metoda ta ma kilka podobieństw do analizy składowych głównych, w tym sensie, że umieszcza wiersze lub kolumny w przestrzeni wielowymiarowej, a następnie znajduje najlepiej dopasowaną podprzestrzeń, zwykle płaszczyznę, w której przybliża punkty.

Tablica korespondencyjna to dowolna prostokątna dwukierunkowa tablica nieujemnych wielkości, która wskazuje siłę powiązania między wpisem wiersza a wpisem kolumny tabeli. Najczęstszym przykładem tabeli korespondencyjnej jest tabela kontyngencji, w której wpisy w wierszu i kolumnie odnoszą się do kategorii dwóch zmiennych kategorycznych, a wielkości w komórkach tabeli są częstotliwościami.

Cele analizy wielozmiennowej

(1) Redukcja danych lub uproszczenie strukturalne: Pomaga to w uzyskaniu jak największego uproszczenia danych bez poświęcania cennych informacji. Dzięki temu interpretacja będzie łatwiejsza.

(2) Sortowanie i grupowanie: Gdy mamy wiele zmiennych, tworzone są grupy „podobnych” obiektów lub zmiennych na podstawie zmierzonych cech.

(3) Badanie zależności między zmiennymi: Interesujący jest charakter zależności między zmiennymi. Czy wszystkie zmienne są wzajemnie niezależne, czy też jedna lub więcej zmiennych zależy od pozostałych?

(4) Przewidywanie Związki między zmiennymi: muszą być określone w celu przewidywania wartości jednej lub więcej zmiennych na podstawie obserwacji innych zmiennych.

(5) Konstruowanie i testowanie hipotez. Testuje się określone hipotezy statystyczne, sformułowane w kategoriach parametrów populacji wielowymiarowych. Może to być zrobione w celu potwierdzenia założeń lub wzmocnienia wcześniejszych przekonań.

Przeczytaj również: Wprowadzenie do technik próbkowania

Proces budowania modelu

Budowanie modelu – wybór predyktorów – jest jedną z tych umiejętności w statystyce, o których trudno jest powiedzieć. Ciężko jest rozpisać kroki, ponieważ na każdym z nich trzeba ocenić sytuację i podjąć decyzję o kolejnym kroku. Ale oto niektóre z kroków, o których warto pamiętać.

Część podstawowa (etapy od pierwszego do trzeciego) dotyczy celów analizy, obaw związanych ze stylem analizy i testowaniem założeń. Druga połowa zajmuje się problemami związanymi z estymacją modelu, interpretacją i walidacją modelu. Poniżej znajduje się ogólny schemat budowy odpowiedniego modelu przy użyciu dowolnego zastosowania technik zmiennych-

Założenia modelu

Przewidywanie zależności między zmiennymi nie jest łatwym zadaniem. Każdy model ma swoje założenia. Najważniejszymi założeniami analizy wielowymiarowej są normalność, homoscedastyczność, liniowość i brak skorelowanych błędów. Jeśli zbiór danych nie spełnia tych założeń, badacz musi dokonać wstępnego przetworzenia. Pominięcie tego kroku może spowodować nieprawidłowe modele, które dają fałszywe i niewiarygodne wyniki.

Podsumowanie statystyki wielozmiennowej

Kluczem do statystyki wielozmiennowej jest koncepcyjne zrozumienie relacji pomiędzy technikami w odniesieniu do:

  • Rodzajów problemów, do których nadaje się każda technika.
  • Celu(ów) każdej techniki.
  • Sztruktury danych wymaganej dla każdej techniki,
  • Uwagi dotyczącej próbkowania dla każdej techniki.
  • Podstawowego modelu matematycznego, lub jego braku, każdej techniki.
  • Potencjał dla komplementarnego wykorzystania technik

Na koniec chciałbym stwierdzić, że każda technika ma również pewne mocne i słabe strony, które powinny być wyraźnie rozumiane przez analityka przed próbą interpretacji wyników techniki. Obecne pakiety statystyczne (SAS, SPSS, S-Plus i inne) coraz bardziej ułatwiają uruchomienie procedury, ale wyniki mogą być katastrofalnie źle zinterpretowane bez odpowiedniej ostrożności.

Jeden z najlepszych cytatów Alberta Einsteina, który wyjaśnia potrzebę analizy wielowariantowej, brzmi: „Jeśli nie potrafisz tego wyjaśnić prosto, nie rozumiesz tego wystarczająco dobrze.”

Starałem się przedstawić każdy aspekt analizy wielowariantowej. W skrócie, wielowariantowa analiza danych może pomóc w eksploracji struktur danych badanych próbek.

Zapisz się na bezpłatne kursy Great Learning Academy i podnieś swoje kwalifikacje już dziś!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *