Regresja Logistyczna Statistica

0 views

Skip to first unread message

Maren Ruminski

unread,

Aug 5, 2024, 9:08:04 AM8/5/24

to inonplanje

PakietSTATISTICA Modele zaawansowane zawiera szeroki wybr najbardziej zaawansowanych, spośrd dostępnych na rynku, narzędzi modelowania wspłzależności liniowych i nieliniowych, ktre umożliwiają operowanie na predyktorach ciągłych i jakościowych, uwzględnianie interakcji, tworzenie modeli hierarchicznych oraz możliwości automatycznego wyboru modeli. Wszystkie te narzędzia dostępne są w polskojęzycznym środowisku użytkownika. Ponadto pozwala obliczać komponenty wariancyjne, analizować dane o postaci szeregw czasowych oraz stosować wiele innych metod. Wszystkie analizy są wspomagane doskonałą, interakcyjną grafiką oraz mają wbudowany język Visual Basic. W skład tego pakietu wchodzą moduły:

Moduł Rozkłady i symulacja (Distributions & Simulation) służy do automatycznego dopasowania do danych rozmaitych rozkładw oraz sprawdzenia dobroci dopasowania. Analizę można wykonać dla pojedynczej zmiennej lub całej listy zmiennych. do danych możemy dopasowywać standardowe rozkłady (normalny, połwkowy normalny, log-normalny, Weibulla itp.), jak rwnież specjalistyczne, takie jak Johnsona, mieszanka rozkładw normalnych, uoglniony rozkład Pareto, uoglniony rozkład wartości ekstremalnej. Program automatycznie porządkuje dopasowane rozkłady według dobroci dopasowania.

Dopasowane do zmiennych rozkłady i ich macierz korelacji można zapisać i następnie wykorzystać do generowania wartości zmiennych pochodzących z odpowiedniego rozkładu z zachowaniem korelacji między zmiennymi. Dzięki temu moduł Rozkłady i symulacja nie tylko szybko i wygodnie znajduje rozkłady zmiennych, ale rwnież jest w stanie wygenerować nowe dane z zachowaniem rozkładw poszczeglnych zmiennych oraz korelacji między nimi. do generowania danych wykorzystywane są najnowocześniejsze techniki symulacji, takie jak metoda Latin-Hypercube.

Przykładowo przypuśćmy, że dla danej produkcji zidentyfikowano trzy ważne cechy jakościowe. Ze względu na sposb tworzenia produktu, jeżeli suma pierwszych dwch cech jakościowych jest większa niż podwojona wartość trzeciej cechy, to produkt uznaje się za wadliwy. Zamiast czekać na napływające dane, możemy dopasować rozkład do zaobserwowanych danych, dokonać symulacji i wyciągnąć wnioski (jak np. procent brakw) w oparciu o przeprowadzoną symulację. Mogą one nakierować inżynierw na dokonanie pewnych zmian w procesie produkcji.

Moduł ten stanowi obszerną implementację rżnych technik przeznaczonych do analizy danych uciętych w badaniach społecznych, biologicznych i medycznych, a także procedur stosowanych w inżynierii i marketingu (np. kontrola jakości, ocena niezawodności). Oprcz obliczania tablic trwania życia z rozmaitymi statystykami opisowymi i estymatorami limitu iloczynowego Kaplana-Meiera, użytkownik może porwnywać funkcje przeżycia w rżnych grupach korzystając z obszernego zestawu metod (takich jak test Gehana, test F Coxa, test Coxa-Mantela, test log-rang czy też uoglnienie testu Wilcoxona wg Peto i Peto). Ponadto dla grup można tworzyć wykresy Kaplana-Meiera (dane nieucięte są na wykresach identyfikowane przy pomocy rżnych znacznikw punktw). Program cechuje się także zestawem procedur dopasowania funkcji przeżycia (takich jak funkcja wykładnicza, liniowa hazardu, Gompertza i Weibulla) opartych na metodach nieważonych i ważonych najmniejszych kwadratw (w module

Opisywany moduł oferuje także pełną implementację czterech oglnych modeli objaśniających (model proporcjonalnego hazardu Coxa, model regresji

wykładniczej, modele regresji lognormalnej i normalnej) z rozbudowanymi diagnostykami, włączając analizę warstwową i wykresy przeżycia dla określonych przez użytkownika wartości predyktorw. W przypadku regresji proporcjonalnego hazardu Coxa użytkownik może wybrać warstwowanie prby, aby dopuścić rżne hazardy linii zerowych w rżnych warstwach (ale przy stałym wektorze wspłczynnikw) lub rżne hazardy linii zerowej oraz rżne wektory wspłczynnikw. Ponadto wprowadzono oglne narzędzia definiowania jednej lub wielu zmiennych towarzyszących zależnych od czasu. Zmienne towarzyszące zależne od czasu można określać przy pomocy interpretera formuł, ktry umożliwia definiowanie zmiennych towarzyszących za pomocą wyrażeń arytmetycznych. Mogą one zawierać czas a także standardowe funkcje logiczne (np. timedep=age+age*log(t_)*(age>45), gdzie t_ odnosi się do czasu przeżycia) oraz szeroki zestaw funkcji rozkładu. Jak we wszystkich innych modułach programu STATISTICA, użytkownik ma dostęp i może zmieniać parametry techniczne wszystkich procedur (lub akceptować domyślne). Moduł oferuje także szeroki zestaw wykresw i diagramw ułatwiających interpretację wynikw (włączając wykresy skumulowanych proporcji przeżywających/ulegających awarii, konfiguracji (układw) danych uciętych, funkcji hazardu i skumulowanych funkcji hazardu, funkcji gęstości prawdopodobieństwa, wykresy porwnań grup, wykresy dopasowania rozkładw, rżne wykresy reszt i wiele innych). Przy zastosowaniach technicznych zob. grupę

procedur Analiza Weibulla.

Moduł Estymacja nieliniowa umożliwia dopasowanie praktycznie dowolnego typu modelu nieliniowego. Jedną z unikalnych właściwości tego modułu jest (w odrżnieniu od tradycyjnych programw estymacji nieliniowej) to, że nie narzuca on żadnych ograniczeń wielkości plikw danych, ktre może przetwarzać.

Wyniki. Oprcz rozmaitych statystyk opisowych, standardowe wyniki estymacji nieliniowej obejmują oceny parametrw i ich błędy standardowe (obliczane niezależnie od samej estymacji, przy pomocy metody rżnic skończonych by zoptymalizować dokładność; patrz Kontrolne testy porwnawcze)), macierz wariancji/kowariancji ocen parametrw, wartości przewidywane, reszty i odpowiednie miary dobroci dopasowania (np. logarytm wiarygodności modelu estymowanego i zerowego i rżnicowe chi-kwadrat, test do oceny proporcji wyjaśnianej wariancji, klasyfikacja przypadkw i ilorazy szans dla modeli logit i probit). Wartości przewidywane i reszty można dołączyć do pliku danych dla dalszych analiz. Jeśli stosowanym modelem jest regresja logistyczna lub regresja probit, to obliczane jest także przyrostowe dopasowanie, gdy dodajemy lub usuwamy parametry z modelu regresji (by eksplorować dane przy pomocy procedury krokowej estymacji nieliniowej). W opisanym poniżej module Uoglnione modele liniowe dostępne są także opcje przeznaczone do automatycznego przeprowadzania regresji postępującej i wstecznej oraz regresji metodą wyboru najlepszego podzbioru predyktorw w przypadku modeli logitowych i probitowych.

Wykresy. Wszystkie wyniki są zintegrowane z rozbudowanym zestawem wykresw, w tym interakcyjnie dostosowywane dwuwymiarowe i trjwymiarowe (powierzchniowe) wykresy dopasowania dowolnej funkcji, ktre umożliwiają przedstawienie jakości dopasowania i zidentyfikowanie przypadkw odstających lub zakresw rozbieżności między modelem a danymi. Możemy interakcyjnie dostosowywać rwnanie dopasowanej funkcji (jak to pokazano na wykresie) bez powtrnego przetwarzania danych i przedstawić praktycznie wszystkie aspekty procesu dopasowania nieliniowego. Wprowadzono także wiele innych specjalistycznych wykresw służących do oceny procesu dopasowania i przedstawienia wynikw, takich jak histogramy wszystkich wybranych zmiennych i wartości resztowych, wykresy rozrzutu wartości obserwowanych względem wartości przewidywanych i przewidywanych względem reszt, wykresy normalności i normalności połwkowej dla reszt i wiele innych.

Sezonowe i niesezonowe wyrwnywanie wykładnicze. Moduł Szeregw czasowych zawiera pełną implementację wszystkich 12 typowych modeli wyrwnywania wykładniczego. Modele można definiować w taki sposb, aby zawierały addytywny lub multiplikatywny składnik sezonowości oraz trend liniowy, wykładniczy lub gasnący; zatem wśrd dostępnych modeli znajdują się popularne modele z trendem liniowym Holta-Wintera. Użytkownik może określić wartość początkową transformacji wyrwnywania, początkową wartość trendu i wskaźniki sezonowości (jeśli mają zastosowanie). Dla składnikw trendu i sezonowości można określić oddzielne parametry wyrwnywania. Użytkownik może także przeprowadzić przeszukiwanie sieciowe w przestrzeni parametrw w celu zidentyfikowania najlepszych wartości parametrw; w odpowiednim arkuszu wynikw dla wszystkich kombinacji wartości parametrw zostaną podane błąd średni, średni błąd absolutny, suma błędu kwadratowego, wariancja składnika resztowego, średni błąd procentowy oraz średni absolutny błąd procentowy. Najmniejsza wartość tych wskaźnikw dopasowania zostanie w arkuszu wynikw wyrżniona. Ponadto, użytkownik może wykonać automatyczne poszukiwanie najlepszych parametrw ze względu na wariancję składnika resztowego, średni błąd absolutny lub średni absolutny błąd procentowy (w tym celu stosuje się oglną procedurę minimalizacji funkcji). Wyniki odpowiedniej transformacji wyrwnywania wykładniczego, reszty a także wymagana liczba prognoz mogą być wykorzystane w dalszych analizach oraz do sporządzania wykresw. Można także wykonać sumaryczny wykres w celu oceny trafności danego modelu wyrwnywania wykładniczego; wykres taki pokazuje szereg pierwotny wraz z wartościami wygładzonymi i prognozami, a także reszty procedury wyrwnywania wykreślone

odrębnie względem prawej osi Y.

Klasyczna dekompozycja sezonowa (metoda Census I). Użytkownik może określić długość okresu i wybrać model sezonowości addytywnej lub multiplikatywnej. Program oblicza średnie ruchome, ilorazy lub rżnice, wskaźniki sezonowości, szereg skorygowany sezonowo, wygładzony wskaźnik trendu i długookresowy oraz składnik nieregularny. Składniki te można poddawać dalszym analizom; na przykład, użytkownik może sporządzać histogramy, wykresy normalności itd. dla dowolnych lub wszystkich tych składnikw (np. W celu oceny trafności modelu).