Czas wziąć się do roboty :)

16 views
Skip to first unread message

Kasia Salamońska

unread,
May 4, 2013, 1:43:15 PM5/4/13
to rlpr...@googlegroups.com
Hej Dziewczyny!
Tak jak obiecałam, przesyłam przygotowany zbiór i modelowanie które było na Ćw.2.

Wszystkie kody którymi obrobiłam dane są w Program_reg.

W drugim programie jest kod z ćw2. dzięki któremu można zmienić kategorie referencyjne.
Niestety jeszcze nie bardzo wiem jak ten kod przetransformować dla naszego zbioru, bo nie mam pojęcia jak odwołać sie do danej kategorii, skoro nie są one nazwane. Wiecie może jak to się robi?
.
rl_zbior.sas7bdat
regresja_zbior_danych.egp
zmienne.docx
Program_reg.sas

Kasia Salamońska

unread,
May 4, 2013, 1:50:28 PM5/4/13
to rlpr...@googlegroups.com
A tu są pliki z z Ćw.3 a do nich stary zbiór (dane2) z którego korzystałyśmy żeby móc jakkolwiek wykonywać nowe kody które się pojawiły.
dane2.sas7bdat
Program_cw3.sas
Project_cw3.egp

Kasia Salamońska

unread,
May 5, 2013, 5:41:27 AM5/5/13
to rlpr...@googlegroups.com
Obczaiłam jak zmienia się kategorie referencyjne plus zrobiłam małe zmiany w zbiorze danych, więc załączam poprawione wersje.

Dobrze by było gdyby ktoś mnie sprawdził czy wszystko na pewno jest ok. Model jeśli chodzi o parametry wyszedł chyba całkiem spoko - ten ostateczny przy wykorzystaniu kodu z ćw2 jest w zakładce Results  programu 'Program'.

Kto teraz weźmie się za ogarnięcie materiału z ćw.3?

 


W dniu 4 maja 2013 19:50 użytkownik Kasia Salamońska <kats...@gmail.com> napisał:
A tu są pliki z z Ćw.3 a do nich stary zbiór (dane2) z którego korzystałyśmy żeby móc jakkolwiek wykonywać nowe kody które się pojawiły.

--
Otrzymujesz tę wiadomość, ponieważ subskrybujesz grupę dyskusyjną Google o nazwie „RLprojekt”.
 
Aby anulować subskrypcję tej grupy i przestać otrzymywać z niej wiadomości, wyślij e-maila do rlprojekt+...@googlegroups.com.
Więcej opcji znajdziesz na https://groups.google.com/groups/opt_out
 
 

regresja_zbior_danych.egp
rl_zbior.sas7bdat
Program_reg.sas

Paulina Mizura

unread,
May 5, 2013, 5:59:11 AM5/5/13
to Kasia Salamońska, rlpr...@googlegroups.com
Super Kasia! :) Dzisiaj na to nie zdążę zerknąć, bo muszę zrobić na jutro pracę zaliczeniową na ARMI. Także jutro spojrzę na to co już mamy i co trzeba dalej robić.

A co z wami dziewczyny? :)

Martyna Kurzak

unread,
May 5, 2013, 6:24:35 AM5/5/13
to Paulina Mizura, Kasia Salamońska, rlpr...@googlegroups.com
Hej,

Ja szczerze powiedziawszy dopiero zobaczyłam wiadomość i dopiero we wtorek będę miała czas się tym zająć, bo niedługo wracam do Warszawy, a jutro mam zajęcia do 20:30. Kasia dzięki bardzo za przesłanie! :)


W dniu 5 maja 2013 11:59 użytkownik Paulina Mizura <paulina...@gmail.com> napisał:
Super Kasia! :) Dzisiaj na to nie zdążę zerknąć, bo muszę zrobić na jutro pracę zaliczeniową na ARMI. Także jutro spojrzę na to co już mamy i co trzeba dalej robić.

A co z wami dziewczyny? :)

Martyna Kurzak

unread,
May 7, 2013, 1:42:04 PM5/7/13
to Paulina Mizura, Kasia Salamońska, rlpr...@googlegroups.com
Kasia,

A masz może zapisane te kody z ostatnich ćwiczeń?

Paulina Mizura

unread,
May 8, 2013, 8:50:03 AM5/8/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
Kasia wysłała w drugiej wiadomości kody z ostatnich ćwiczeń :)

Paulina Mizura

unread,
May 8, 2013, 9:05:11 AM5/8/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
Ważniejszym pytaniem jest: czy są gdzieś dostępne slajdy z ćwiczeń? Powiedzcie mi, czy dobrze rozumiem: mamy teraz sprawdzić, czy model się polepszy jak skategoryzujemy zmienne ciągłe (np. wiek) oraz czy się polepszy jak wprowadzimy interakcje?

Jeśli tak, to ja się mogę zająć wiekiem, niedługo wrzucę wyniki.

Interakcje są jak coś opisane fajnie w książce Gruszczyńskiego "Mikroekonometria", mogę wysłać zdjęcia w razie potrzeby :)

Paulina Mizura

unread,
May 8, 2013, 6:48:57 PM5/8/13
to Martyna Kurzak, Kasia Salamońska, karolina.n...@gmail.com, rlpr...@googlegroups.com
Chodzi mi o ten kod:

proc logistic data=regresja.dane3 outmodel=nowymodel;
class wykszt umowa;
model ZmPr(event='1')=wykszt|umowa wiek
/selection=forward sle=.01;
run;

Jest tam interakcja wykształcenia z umową, wydaje mi się, że robiliśmy ją pod koniec zajęć.

A to z wiekiem już ogarnęłam, ale dokonczę jutro w czasie okienka, wiec juz nie będę wam wysyłać tylko po prostu przyniosę na zajęcia.

karolina.nowakowska9

unread,
May 8, 2013, 7:04:26 PM5/8/13
to RLprojekt
Hej Dziewczyny,

przepraszam, że się nie odzywałam. Jutro mam do oddania projekt ze
ZMASu i przed naszą RL mam egzamin teoretyczny. Uwierzcie mi, że ten
przedmiot jest dziwny.
Obiecuję, że od piątku aktywnie włączę się w pracę nad naszym modelem.
Nie wiem, czy się zrekompensuję, ale w najbliższych dniach prześlę Wam
pytania z egzaminu teoretycznego z RL i AHZ z zeszłego roku :] A po
jutrzejszym egzaminie będę znała też ZMAS :P

Do zobaczenia jutro!
Pozdrawiam,
Karolina

Kasia Salamońska

unread,
May 9, 2013, 3:31:30 PM5/9/13
to rlpr...@googlegroups.com
Uwaga!
Przez nieuwagę kilka swoich ostatnich wiadomości pisałam tylko do do jednej osoby zamiast do całej grupy więc tu są moje ostatnie komentarze:

1."Jakieś stare slajdy z ćwiczeń są w kserze na drugim piętrze, ale to nie jest dokładnie ta wersja którą Iga teraz ma.

No pierwsza rzecz to była kategoryzacja wieku - najpierw sprawdzamy na podstawie tego wykresu log jak pokategoryzować.
Druga rzecz to była identyfikacja obserwacji odstających i ich eliminacja.
A trzecia to porownanie jak nasz stworzony model zadziała na tym zbiorze ggp_nowa10.

A skąd te interakcje Ci do głowy przyszły? Jeśli dobrze pamiętam to tego chyba jeszcze było na ćwiczeniach...(8.05)."


2."Hmmm no ja takiego kodu nie kojarzę.
Z tego projektu 3 można dokładnie prześledzić jak co było robione. Jak weźmiesz opcje modyfikowania poszczególnych zadań to sobie podglądasz co i jak było wyklikane. Dlatego dałam tutaj ten stary zbiór dane2 żeby dało się obczaić jak to wszystko szło (8.05)"

3."Paulina, to z tą interakcją to nie wiem - główna idea tego kodu to miało być porównanie jak sie sprawdza nasz model dla zbioru walidacyjnego, więc bym się tą interakcją nie przejmowała :P Spoko, grunt żebyśmy na ćwiczenia to miały :)
A co z tymi obserwacjami odstającymi? Martyna Ty coś zrobiłaś? (9.05)"

Kasia Salamońska

unread,
May 9, 2013, 5:49:58 PM5/9/13
to rlpr...@googlegroups.com
Przesyłam projekt w którym zebrałam wszystko co mamy do tej pory.

Paulina, dołożyłam tę część z kategoryzacją wieku którą mi dałaś.

Jeśli chodzi o tę regresję wielomianową w której nie chciała nam wyjść ta zbieżność, to udało mi się dojść do tego że winne są dwie zmienne: stan cywilny i bezpieczeństwo w miejscu pracy. Po ich usunięciu problem znika więc  moim zdaniem najpewniejszymi najprostszym wyjściem jest pozbycie się tych dwóch zmiennych solidarnie ze wszystkich modeli, co właśnie zrobiłam już w tym co Wam przesyłam.

Karolina, Martyna, umówmy się że do niedzieli do wieczora prześlecie swoją część w postaci analizy wartości odstających i nietypowych i pozbycia się tych odstających plus to sprawdzenie ostatecznego modelu regresji binarnej na nowym zbiorze danych ggp_nowa10, ok?
Musimy potem jeszcze ogarnąć co się tam właściwie dzieje w tej regresji uporządkowanej i wielomianowej, plus ta nieszczęsna prezentacja więc nie możemy zostawić wszystkiego na przyszły tydzień.

Plan prezentacji wg Igi (15 minut):
1. koncepcja modelu, dane itp
2. model regresji binarnej - cały algorytm postępowania ->
a) pierwsza wersja z wrzuconymi wszystkimi zmiennymi
b) wartości nietypowe i odstające
c) sprawdzenie założeń (?) - nie jestem pewna w sumie o co jej chodziło? Co Wy macie zanotowane?
d) model finalny (na ćwiczeniach 2 Iga mówiła o paru testach którymi się ocenia model, w tym ten Hosmera-Lemenshowa)
3. regresja uporządkowana
4. regresja wielomianowa
5. problemy z rozwiązaniami

Jakieś pomysły jak się tym wszystkim dzielić dalej? Macie zanotowane coś więcej jeśli chodzi o plan?






regresja_projekt.egp
rl_zbior.sas7bdat

Martyna Kurzak

unread,
May 10, 2013, 3:26:13 PM5/10/13
to Kasia Salamońska, rlpr...@googlegroups.com
Kasia dzięki za przesłanie i za podsumowanie wszystkiego. Ja się deklaruję, że zajmę się analizą wartości odstających i nietypowych i prześlę to powiedzmy w niedzielę do 12.
 
Karolina czy mogłabyś nam wysłać te pytania na egzamin teoretyczny? Bardzo by nam to pomogło w nauce :)
 
Jeśli chodzi o prezentację to mam zapisane dokładnie to samo.
 
Pozdrawiam,
Martyna

Martyna Kurzak

unread,
May 11, 2013, 4:38:56 AM5/11/13
to Kasia Salamońska, rlpr...@googlegroups.com
Dziewczyny,
 
Przeanalizowałam dane i poprawcie mnie jeśli się mylę, my nie mamy obserwacji odstających, ponieważ wszystkiego zmienne są skategoryzowane... wiek posiadał wartości odstające, ale został skategoryzowany, dochód również jest... Godzin pracy jednak nie bierzemy w analizie, tak?
 
Kasia masz może te 2 pierwotne pliki, które zostały połączone i mogłabyś je przesłać?
Message has been deleted

Martyna Kurzak

unread,
May 12, 2013, 4:19:39 AM5/12/13
to Kasia Salamońska, rlpr...@googlegroups.com
Cześć,
 
Jeśli chodzi o prezentację to mogę się zająć modelem proporcjonalnych odds.
 
Możecie się odnieść do tego co wczoraj napisałam? :)

Kasia Salamońska

unread,
May 12, 2013, 2:16:48 PM5/12/13
to Martyna Kurzak, rlpr...@googlegroups.com
Hmmm, ale ja już przecież wczoraj Ci odpisałam... Specjalnie pisałam na grupie a nie w mailu żeby doszło. Dziwne :/

Kasia Salamońska

unread,
May 12, 2013, 2:23:55 PM5/12/13
to Martyna Kurzak, rlpr...@googlegroups.com
Ok, już wiem dlaczego... Załączyłam te 3 zbiory danych i wiadomosc miala wiecej niz 8mb i sie google zbuntował.

To pisałam wczoraj jak coś:

Godzin pracy stwierdziłam że nie ma co brać bo ta zmienna byłaby zbyt skorelowana ze zmienną etat, więc zdecydowałam się tylko na tę drugą. Dochody też był skategoryzowane ale ich też nie bierzemy bo mają za dużo braków danych a ich wrzucenie powoduje  problem braku zbieżności w modelu.

Martyna, ale tu nie chodzi o wartości odstające dla poszczególnych zmiennych tylko o obserwacje odstające i nietypowe już po stworzeniu modelu....
I myślę że to że mamy wszystkie zmienne skategoryzowane wcale nie oznacza że takich obserwacji nie będzie.


ggp_nowa1.sas7bdat
ggp_nowa2.sas7bdat

Kasia Salamońska

unread,
May 12, 2013, 2:29:32 PM5/12/13
to Martyna Kurzak, rlpr...@googlegroups.com
Karolina, dzięki za egzaminy. Czyli Ty w takim razie zrobiłabyś to sprawdzenie modelu na zbiorze ggp_nowa10 i ten model wielomianowy? Załączam ten zbiorek jeśli go nie ściągałaś.
ggp_nowa10.sas7bdat

Paulina Mizura

unread,
May 13, 2013, 4:51:08 AM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Co do obserwacji odstających, to mi się wydaje, że jest tak, jak pisze Kasia. Obserwacje odstające nie występują tylko dla zmiennych ilościowych, ale też tych nominalnych, porządkowych, binarnych. Wg mnie trzeba zrobić wykres poszczególnych zmiennych od logitu i na jego podstawie okreslić, czy występują jakieś odstające obserwacje. Albo można użyć miar "obliczeniowych" typu dffits czy dfbetas, coś o tym było w którymś z referatów :> Ale nie wiem, czy na ćwiczeniach poruszaliśmy takie tematy.. Albo można po prostu odciąć obserwacje, które odstają np. o 3 odchylenia standardowe? Jakos nie pamiętam, w jaki sposób robiliśmy to na cwiczeniach.
 
A mógłby ktoś mniej więcej streścić ostatnie ćwiczenia? (nie było mnie)
 
To może, żeby już coś zacząć pisać (rozumiem, że to ma być raport w Wordzie,a  potem na jego podstawie prezentacje w PowerPoincie?), ja mogę napisać wstęp, opis modelu, danych itd.

Kasia Salamońska

unread,
May 13, 2013, 7:22:40 AM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Na ćwiczeniach 3 było właśnie o tych dffits i dfbetas i myślę że to właśnie z tego powino się skorzystać. Z tego co zrozumiałam to nie mamy pisać żadnego raportu - sama prezentacja.  A ostatnie ćwiczenia sprowadzają sie do tych dwóch kodów Reg_porz i Reg_wiel. Iga trochę tłumaczyła przy tym na czym polegają te dwa typy modeli.

Paulina Mizura

unread,
May 13, 2013, 8:07:35 AM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
No to mogę zacząć robić prezentację. Czyli zostały nam jeszcze: obserwacje odstające, regresja wielomianowa i porządkowa. Rozumiem, że one już były puszczone i coś nie tak wyszło :> ?

Kasia Salamońska

unread,
May 13, 2013, 8:22:43 AM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
No niby tak. Tyle że bez zidentyfikowania i wyrzucenia tych obserwacji odstających nie mam ostatecznej wersji modelu. Martyna prześlesz to dzisiaj?

Na ćwiczeniach były puszczane te kody i działały z tymże nie wychodziła zbieżność ale poprawiłam zbiór zmiennych, o czym pisałam w wiadomości z czwartku, i już jest ok. Chodzi raczej o ogarnięcie wyników które wypluwa SAS dla tych dwóch modeli.

Kasia Salamońska

unread,
May 13, 2013, 8:24:53 AM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Konsultowałam się z koleżanką i żadnego pisemnego raportu nie ma. Trzeba za to oddać na płytce prezentację którą będziemy pokazywać i wszystkie kody których używałyśmy.

Kasia Salamońska

unread,
May 13, 2013, 10:13:22 AM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Męczy mnie też co z interakcjami? Nie mówiliśmy nic o ich włączaniu na ćwiczeniach, ale czy to oznacza że mamy w ogóle nie brać ich pod uwagę?

A no i jak sie w Logistic Regression w Zakładce Model->Options zaznaczy "Show classification table" to można zobaczyć jaki jest procent poprawnych zaklasyfikowań w zalezności od wybranego punktu odcięcia.
Czy SAS domyslnie robi model dla 0,5? Bo jesli tak to mamy ponad 80% poprawnych zakwalifikowań a Iga i slajdy Frątczak twierdzą, że wtedy model należy uznać za "podejrzany", co może wynikać z niezrównoważonego rozkładu zmiennej objaśnianej (u nas "1" stanowią koło 16% więc pytanie czy to już jest niezrównoważone?) albo z uzglednienia w modelu truizmów (czy zmienna rodzaj umowy - na czas określony/nieokreślony to już truizm?).???
Co z tym robimy?

Paulina Mizura

unread,
May 13, 2013, 10:45:21 AM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Właśnie, trzeba mieć najpierw te obs. odstające, bo one miały być usunięte po modelu logitowym a przed wielomianowym i uporządkowanym. Martyna, obliczyłaś te dffits i dfbetas? :>

Jeśli w naszej próbie jest tylko 16% jedynek, to na pewno ona jest niezbilansowana - musimy zmienić punkt odcięcia. Wtedy zupełnie inaczej może wyglądać tabela przypadków poprawnej predykcji. 

Wg mnie można wrzucić jakąś interakcję. Do logitowego raczej, bo wydaje mi się, że w innych modelach to juz będzie szczyt komplikacji :) Nie wiemy na 100% czy miała być interakcja, czy nie, wiec lepiej dla pewności wrzucić, nie zajmie to dużo czasu, trzeba tylko dodać "|" albo "*" między wybranymi zmiennymi (pytanie: czy tylko dla niektórych zmiennych interakcje czy dla wszystkich?). Nasz referat był o tym, więc mogę się tym zająć... Z tym, że interpretacja interakcji jest dość trudna (trzeba jakieś pochodne liczyć).

Paulina Mizura

unread,
May 13, 2013, 10:46:17 AM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
A co masz na myśli z tą umową na czas określony/nieokreślony? :)

Kasia Salamońska

unread,
May 13, 2013, 11:03:48 AM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Z tą umową chodziło mi o to że skoro ktoś ma umowę na czas określony, tymczasową albo w ogóle jej nie ma to w duzej mierze by oznaczało że tej samej pracy długo mieć nie będzie. No i myślę że dlatego ta zmienna wyszła najbardziej istotna. No ale może przesadzam.

No własnie ja nie mam na razie wiedzy jesli chodzi  o te interakcje. Dołączyć w kodzie to wiem jak, ale na tym się kończy... jeśli juz wrzucac to mysle ze jedna, gora dwie - cos czego polaczenie wydawałoby sie najbardziej sensowne

Odstające miały być usuniete we wstępnym binarnym i potem po ich usunieciu dopiero mozna ostateczny model jeszcze raz zrobic i zanalizować.

Pytanie jak się zmienia ten punkt odcięcia?

Paulina Mizura

unread,
May 13, 2013, 11:23:39 AM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Z tymi umowami to wydaje mi się,że  można zostawić. Przecież nie mamy odkrywać nowych praw rządzących ekonomią, tylko sprawdzić, co wyjaśnia decyzję o zmianie pracy.

No czyli na razie interakcji też się nie opłaca robić, bo musimy mieć te odstające... Proponuję poczekać do wieczora czy się coś ze strony Martyny wyklaruje.

Jak robiłam na licencjacie pracę na "modelowanie ekonometryczne w mikroekonomii", to w gretlu nie było takiej opcji i trzeba było w excelu zliczyć ;) ale w sasie powinno być... ja w każdym bądź razie nie wiem gdzie to jest. Poszukam jakichś info na ten temat.

Martyna Kurzak

unread,
May 13, 2013, 1:32:04 PM5/13/13
to Paulina Mizura, Kasia Salamońska, rlpr...@googlegroups.com
Kurcze mnie właśnie wtedy nie było na ćwiczeniach, nie dałybyście rady na szybko obliczyć te dffits i dfbetas? Ponieważ ja na razie nie wiem o co chodzi z tym... jutro prześlę swoje slajdy na regresję uporządkowaną...

Martyna Kurzak

unread,
May 13, 2013, 3:18:12 PM5/13/13
to Paulina Mizura, Kasia Salamońska, rlpr...@googlegroups.com
Hej, napisałam taki kod, jest w nim błąd (nie wiem dlaczego), lecz wykresy się rysują:

ods graphics on;
LABELMAX=400;
proc reg data=regresja.rl_zbior
plots(label)=(DFFITS);
model  nowa_praca = wiek_kat /*stan_cywilny*/ wyksztalcenie przeprowadzka
                                    kontrola_fin kontrola_pracy
                                    porazka nauka etat miejsce_pracy sektor
                                    zadowolenie zlobki opieka_zdrow
                                    szkolenia indywidualne umowa /*bezpieczenstwo*/
                                    syt_materialna oszczedzanie;
                                   

                                   
output out=regresja.wyniki p=predict l=lower u=upper xbeta=logit stdxbeta=selogit /alpha=.05;
                                    run;
                                    ods graphics off;

Teraz myślę o tym jak usunąć obserwację gdzie dffits jest > 0.5 i < -0.5,

macie może jakiś pomysł?

Paulina Mizura

unread,
May 13, 2013, 3:27:54 PM5/13/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
Nie ma tam gdzieś wydruku wartości dffits dla każdej obserwacji?

Martyna Kurzak

unread,
May 13, 2013, 3:31:21 PM5/13/13
to Paulina Mizura, Kasia Salamońska, rlpr...@googlegroups.com
Wykres wygląda tak
DFFITS.docx

Paulina Mizura

unread,
May 13, 2013, 3:33:17 PM5/13/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
Ja tak w ogóle usuwałam obserwacje odstające w mojej pracy licencjackiej na podstawie dffits. Ta wartość 0,5 to tak po prostu ja przyjęłaś, czy na podstawie wzoru? Bo jak coś, to ja w mojej pracy przyjełam jako wartość graniczną:

DFFITS* = 2 * sqrt(k/n)

gdzie k - liczba parametrów, n - liczba obserwacji.

Wzór wzięty z Maddali. Według mnie, można po prostu nałożyć filtr na zbiór danych i odflitrować obserwacje których wartość bezwględna |DFFITS| > DFFITS*. I na ich podstawie zrobić model.

Paulina Mizura

unread,
May 13, 2013, 3:35:19 PM5/13/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
A, no to na tym wykresie masz nałożone etykiety które wskazują numer obserwacji odstających, prawda?

Martyna Kurzak

unread,
May 13, 2013, 3:41:57 PM5/13/13
to Paulina Mizura, Kasia Salamońska, rlpr...@googlegroups.com
tak, etykiety wskazują numer obserwacji odstających, jeśli chodzi o wartość 0,5 to jej nie przyjmowałam, czyli domyślnie się zrobiła

Paulina Mizura

unread,
May 13, 2013, 3:44:59 PM5/13/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
Jeśli przeszukałaś opcje i nie ma w nich usunięcia obserwacji nietypowych, to ja jestem za filtrowaniem obserwacji, nic innego  mi w tej chwili nie przychodzi do głowy. 

Paulina Mizura

unread,
May 13, 2013, 4:22:08 PM5/13/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
Piszę wiadomosc jeszcze raz, bo zaczełyśmy pisac same do siebie zamiast do grupy :)

Mam jeszcze jeden pomysł, ale strasznie "na piechotę" i chyba tu nie o to chodzi... wrzucić nr id i według niego odfiltrować te numery obserwacji ktore sa widoczne na wykresie... ale jeśli jest ich dużo to trochę pracochłonne. poszukam coś jeszcze na ten temat

A, tak poza tym, w odniesieniu do rozmowy z Kasią o zmianie punktu odcięcia: widzę, że tam jest pole do wpisania, jaki ma być punkt odcięcia. Jest jakas przeszkoda, żeby po prostu tam wpisać punkt odcięcia? No bo wiemy, że punktem będzie 0,16, może wystarczy to tam wpisać?

Kasia Salamońska

unread,
May 13, 2013, 4:23:35 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Paulina, SAS liczy dffits wg tego wzoru co napisałaś :)
Też mi się wydaje że najlepiej było przefiltrować dane po tej wartości dffits.

A tak gwoli ścisłości, to Martyna tak jak my wszystkie byłaś na tych ćwiczeniach kiedy było o obserwacjach odstających - to były ćw. nr 3, tylko po prostu Iga niewiele o nich powiedziała.

Zastanawiam się tylko w takim razie czy to dffis liczyć juz dla tego modelu w którym jest tylko tych kilka zmiennych wybranych stepwisem? Bo chyba tak by było najsensowniej, bo liczenie tego dla tej pierwotnej wersji gdzie są wrzucone wszystkie zmienne nie wydaje mi się dobry pomysłem. Jak myślicie?

Paulina Mizura

unread,
May 13, 2013, 4:32:08 PM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Tak, najlepiej przefiltrować, tylko mamy problem z wprowadzeniem zmiennej dffits... Nie ma jej w outpucie.

Tak, ja bym odrzucila odstajace po stepwisie.

Martyna Kurzak

unread,
May 13, 2013, 4:46:48 PM5/13/13
to Kasia Salamońska, Paulina Mizura, rlpr...@googlegroups.com
Chyba mam, czy ja dobrze czytam, że po stepwisie mamy tylko zmienne: wiek_kat, nauka, zadowolonie, umowa, syt_mat?

proc reg data=regresja.rl_zbior;
model nowa_praca01 = wiek_kat
                                     nauka
                                    zadowolenie
                                     umowa
                                    syt_materialna /influence;

run;

W tym kodzie są dffits.

Kasia Salamońska

unread,
May 13, 2013, 4:56:13 PM5/13/13
to Martyna Kurzak, Paulina Mizura, rlpr...@googlegroups.com
Tak, zgadza się. Tylko że tu już mamy wiek skategoryzowany a nie ciągły, ale to chyba bez większego znaczenia czy te odstające by się wyrzuciło przy wieku ciągłym czy już przy skategoryzowanym.

Czyli wystarczy dodać "/influence" ? Martyna, nie wiem czy to ma znaczenie, ale myśle że na wszelki wypadek lepiej dodac do tego kodu ten fragment z class gdzie są te kategorie referencyjne wskazywane.

Martyna Kurzak

unread,
May 13, 2013, 5:03:29 PM5/13/13
to Kasia Salamońska, Paulina Mizura, rlpr...@googlegroups.com
Wiesz co procedura reg chyba nie działa z class, bo nie chce mi wyjść. Tak dokładnie, tutaj kluczowe jest influence. I myślę, że nie ma znaczenia, że przy wieku skategoryzowanym. To ja dorzucę teraz dfitts do zbioru i wyfiltruję obserwację oraz prześlę Wam zbiór.

Paulina Mizura

unread,
May 13, 2013, 5:04:08 PM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
W tych materiałach z xero jest co nieco o obs. odstających i wpływowych (własnie - a co z wpływowymi?).  Mogę przesłać zdjęcia jeśli nie macie.

A i w ogóle wyczytałam w tych materiałach, że zalecane jest użycie backward lub forward, bo stepwise może pomijać istotne zmienne. No ale nie wiem czy chce nam się zagłębiać w takie szczegóły :>

Kasia Salamońska

unread,
May 13, 2013, 5:30:10 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
No właśnie dffits wyłapuje obserwacje wpływowe :) Pisałyśmy tutaj cały czas o odstających a wlaściwie mowa była o wpływowych. Pytanie co z odstającymi - bo jesli obserwacja jest tylko odstająca a nie jest wpływowa to nie trzeba jej wywalać bo nie zniekształca wartości parametrów, tylko ma po prostu dużą resztę, nie wiem tylko czy jakoś mamy wskazać te obserwacje, powiedzieć ile ich jest czy jak.

Można by w sumie zrobić forward selection na tym zbiorze żeby porównać czy wyjdzie to samo. Jak nie to trudno i wtedy tego nie uwzględnimy a jak wyjdzie to samo to będzie można się pochwalić :P

Ja akurat mam te materiały z ksera (mowimy o tych z ksera na 2 pietrze w G?).




W dniu 13 maja 2013 23:04 użytkownik Paulina Mizura <paulina...@gmail.com> napisał:
W tych materiałach z xero jest co nieco o obs. odstających i wpływowych (własnie - a co z wpływowymi?).  Mogę przesłać zdjęcia jeśli nie macie.

A i w ogóle wyczytałam w tych materiałach, że zalecane jest użycie backward lub forward, bo stepwise może pomijać istotne zmienne. No ale nie wiem czy chce nam się zagłębiać w takie szczegóły :>

--
Otrzymujesz tę wiadomość, ponieważ subskrybujesz grupę dyskusyjną Google o nazwie „RLprojekt”.
 
Aby anulować subskrypcję tej grupy i przestać otrzymywać z niej wiadomości, wyślij e-maila do rlprojekt+...@googlegroups.com.
Więcej opcji znajdziesz na https://groups.google.com/groups/opt_out
 
 

Kasia Salamońska

unread,
May 13, 2013, 5:36:52 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Martyna, ale proc reg jest do zwykłej regresji a nie do logistycznej, więc myślę że to juz akurat robi różnicę.

Paulina Mizura

unread,
May 13, 2013, 5:37:17 PM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Hmm.. z tego co mi wiadomo, dffits wyłapuje odstąjące. dfbetas chyba wyłapują wpływowe.

tak, z tego xero, cos tam było o tych obserwacjach... napisali, żeby "zapisać do zewnętrnego zbioru i wyliczyć w sas, czy wartości przekraczają powyższe granice".. czyli to na co my wpadlysmy

Martyna Kurzak

unread,
May 13, 2013, 5:38:40 PM5/13/13
to Paulina Mizura, Kasia Salamońska, rlpr...@googlegroups.com
W załączniku przesyłam:

-program - dwa kody, pierwszy, z którego powstaje wykres na podstawie, którego wysuwamy wnioski odnośnie wartości odstających, jak zmieniłam liczbę zmiennych punkt graniczny przyjęłam 0,25/-0,25; drugi kod służy do zrobienia tej tabeli, potem filtrujemy dane
- zbiór danych, tylko ze zmiennymi, które bierzemy do modelu

Dajcie znać czy jest ok.

Zmykam na dzisiaj.




W dniu 13 maja 2013 23:04 użytkownik Paulina Mizura <paulina...@gmail.com> napisał:
W tych materiałach z xero jest co nieco o obs. odstających i wpływowych (własnie - a co z wpływowymi?).  Mogę przesłać zdjęcia jeśli nie macie.

A i w ogóle wyczytałam w tych materiałach, że zalecane jest użycie backward lub forward, bo stepwise może pomijać istotne zmienne. No ale nie wiem czy chce nam się zagłębiać w takie szczegóły :>

--
rl_zbior2.sas7bdat
Odstajace.sas

Kasia Salamońska

unread,
May 13, 2013, 5:39:00 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Hmm, ja w swoim licencjacie też miałam dffits i mam zapisane że wyłapuje obserwacje wpływowe :P

Kasia Salamońska

unread,
May 13, 2013, 5:42:32 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Zgodnie z manualem SAS i dffits i dfbetas jest do obserwacji "influential" :)

Paulina Mizura

unread,
May 13, 2013, 5:43:27 PM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
To teraz widzimy jak promotorzy czytają nasze prace :D

Kasia Salamońska

unread,
May 13, 2013, 5:47:06 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
No to chyba Twój :P

Paulina Mizura

unread,
May 13, 2013, 5:47:40 PM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Może to jakieś kwestie pojęciowe/nazewnictwa... Ja dobrze pamiętam, że Maddala pisał w swojej ksiażce, że dffits indetyfikujemy odstające :)

Kasia Salamońska

unread,
May 13, 2013, 5:49:58 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
No ale myśle ze bezpieczniej tu akurat powołać sie na SASa :) Co sądzisz o tym proc reg? Moim zdaniem tą procedurą nie mozemy załatwić sprawy dffits skoro mamy regresje logistyczną a nie liniową...

Paulina Mizura

unread,
May 13, 2013, 5:52:58 PM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
No, też mi to przeszło przez myśl ze reg to nie logistic, ale ja nie wiem ja to inaczej zrobić... jedynie przez wyklikanie w poleceniach . może można wyklikać a potem ten kod skopiować ?

Kasia Salamońska

unread,
May 13, 2013, 5:55:12 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Ale przez wyklikanie da sie wziąć dffbetas ale dffits już nie ma do wyboru. Przynajmniej ja nie znalazłam....

Paulina Mizura

unread,
May 13, 2013, 6:04:25 PM5/13/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
No to olejmy dffits, zróbmy dfbetas a do odstających użyjmy czegokolwiek, np. odchyleń standardowych

Kasia Salamońska

unread,
May 13, 2013, 6:19:39 PM5/13/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Tylko nie wiem czy patrzyłaś jak wyglądają te wykresy dfbetas? Tam dla kazdej kategorii zmiennej objasniajacej jest ten wskaznik wyliczony i nijak nie widać jaka jest wartość graniczna. Można by teoretycznie ją wyliczyc z ogolnego wzoru ale skoro tam jest podzial na kategorie to nie wiem jak to zrobic.

Paulina Mizura

unread,
May 14, 2013, 3:54:30 AM5/14/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Kurczę... wiesz co, zapytam kolegi jak oni to robią, może wiedzą :)

Paulina Mizura

unread,
May 14, 2013, 7:17:52 AM5/14/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Tomek mi napisał, że usuwali obserwacje odstające  "kodem if sftbeta>np 0.2 then delete"... a później już mi nic nie odpisał.

Przesyłam szkielet prezentacji z wprowadzeniem i opisem zmiennych. Dodałam też statystyki opisowe dla wieku i wykształcenia - chyba trzeba co nieco powiedzieć, jak się kształtują zmienne, a wszystkich na pewno nie ma sensu omawiać :> w razie czego przesyłam zmieniony projekt, z dopisanym kodem na średnie wieku. on jest w osobnym programie, bo jakoś nie wiem jak mam to dołączyć do poprzedniego programu, tak żeby te biblioteki czytało..

RL_prezentacja.pptx
regresja_projekt.egp

Paulina Mizura

unread,
May 14, 2013, 7:18:27 AM5/14/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
A, mam jeszcze pytanie: obiło mi się o uszy, że na egz. praktycznym trzeba wszystkie kody znać na pamieć, to prawda, że nie można mieć pomocy?

Kasia Salamońska

unread,
May 14, 2013, 8:18:52 AM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
No to spróbuje to zrobić tak jak napisał Tomek z tymi dfbetas.

Fajnie pomyśłałaś z tą prezentacją zmiennych i danych - podoba mi się :) I ładny obrazek na tytułowej :D
Tylko zauważyłam kilka rzeczy które trzeba by zmienic:
-slajd 13 można pominąć bo tych zmiennych nawet do pierwotnego modelu nie wrzucamy
-slajd 14 - jest 7 zmiennych nominalnych i 2 porządkowe
-slajd 16 - tam chyba powinno być odwrotnie bo jeśli dobrze pamietam to najliczniejszą kategorią są 1 i one oznaczają najwyższe wykształcenie a trójek jest najmniej i to jest to wykształcenie poniżej licencjatu

Co do znania kodów na pamieć to nie mam pojęcia ale bardzo możliwe że to prawda...

Paulina Mizura

unread,
May 14, 2013, 9:12:07 AM5/14/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Haha, rysunek dałam, żeby było bardziej kolorowo :D

Slajd 13 - właśnie zastanawiałam się czy je w ogole dawac, bo niby z zbiorze danych występują, no ale nie ma sensu omawiać czegoś czego potem nie ma w modelach 
 hm, a które są w takim razie porządkowe? bo ja tam widzę wiecej niz 2 :>
 poza tym coś się tu nie sumuje, w tabelce jest 20 zmiennych - 2 objaśniane = 18 zmiennych, jest 1 zmienna ciagla, 9 binarnych, czyli powinno byc 8 pozostałych zmiennych, a mówisz, że są 2 porządkowe i 7 nominalnych?

Co do wykształcenia: wzięłam tę tabelke z outputu z sasa, który już był gotowy. jak widać tam, wykształcenie "1" ma tylko 16 osób :>

Kasia Salamońska

unread,
May 14, 2013, 9:48:30 AM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
(WAŻNE) Co do wykształcenia pomyliłam się w komentarzu opisującym zmienną - 3 to magisterskie i doktoranckie a 1 to  inne (niższe niż licencjackie)  -> po kodzie można zobaczyć że pierwotne 1 i 2 czyli kolejno wykształcenie doktoranckie i magisterskie jest zamieniane na 3, a od kategorie od  4 do 10 zbiłam w jedną bo nie było prawie osób z wykształceniem niższym niż licencjackie.


Sorki, zapędziłam się - binarnych jest 9, porządkowych i nominalnych jest razem 8. Zapomniałam że zmienną bezpieczeństwo wyrzuciłam.
Mi sie wydaje że za porządkową można uznać tylko zadowolenie...Bo ona jest na podstawie oceny od 1do 10 i to jest ewidentny porządek, a z tymi pozostałymi to w sumie nie wiem. Na data miningu na slajdach jesli dobrze pamietam np wielkosc miejsca zamieszkania i wyksztalcenie byly opisane jak nominalne.

A co byś jeszcze dała na porządkową?

Paulina Mizura

unread,
May 14, 2013, 10:28:48 AM5/14/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Dla mnie porządkową jest też przeprowadzka, kontrola_fin,kontrola pracy, porazka, nauka, zadowolenie, sytuacjamaterialna... Wykształcenie na pewno będzie zmienną nominalną - nie można powiedzieć, że np. wykształcenie wyższe jest lepsze od średniego. 

Kasia Salamońska

unread,
May 14, 2013, 11:24:56 AM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
No to może dla bezpieczeństwa lepiej nie nazywać dokładnie rodzaju tych zmiennych, tylko napisać że mamy 17 jakościowych zmiennych objaśniających w tym 9 binarnych :P Bo w sumie na podobnej zasadzie jak z wykształceniem mozna stwierdzic ze to ze ktos zdecydowanie nie podejmie nauki nie jest gorsze od tego że ktos prawdopodobnie ja podejmie... jesli patrzac na to jako na stopien prawdopodobieństwa to jest to jakis porządek ale nie wiem czy to automatycznie oznacza zmienną porządkową :P

Zresztą to są tylko szczegóły w porównaniu z tym co mamy zrobić...

Martyna Kurzak

unread,
May 14, 2013, 1:17:15 PM5/14/13
to Kasia Salamońska, Paulina Mizura, rlpr...@googlegroups.com
Hej, właśnie nadrobiłam wiadomości, ja cały dzień nie mam dostępu do poczty bo jestem w pracy, a potem na uczelni.

Udało się Wam może "doprowadzić" ten zbiór do finalnej wersji? Nad czym mam popracować?


Kasia Salamońska

unread,
May 14, 2013, 1:42:57 PM5/14/13
to Martyna Kurzak, Paulina Mizura, rlpr...@googlegroups.com
Od dłuższego czasu siedzę juz nad tymi obserwacjami odstającymi. Zmienilam troche ten kod reg_bin_wiek tak zeby wyswietlaly sie wyniki testow hosmera-lemeshowa, pearsona i zeby zapisywaly sie te dfbetas do zbioru wynikowego.

Jest tylko jeden problem: te dfbetas wyliczaja sie dla kazdej kategorii (oprocz kategorii referencyjnej) czyli mają postac: dfbeta_nazwakategorii, a powinny się wyliczać dla całej zmiennej. (Pisałam z Karolem Szafrankiem i oni wlasnie maja dla zmiennych a nie dla kategorii)

W ten sposob zamiast 5 dfbetas jest ich kilkanascie i jak potraktowalam je tym arbitralnym kryterium 2/sqrt(n) to wypadło  koło 70 obserwacji z 330 a to stanowczo za dużo.

Paulina, może zagadałyś Tomka dokladniej jak oni mają?


regresja_projekt.egp

Kasia Salamońska

unread,
May 14, 2013, 1:57:19 PM5/14/13
to Martyna Kurzak, Paulina Mizura, rlpr...@googlegroups.com
Karolina, napisz czy zamierzasz w ogóle włączyć się w projekt?

Martyna może Ty wiesz jak poradzisz sobie z tymi dfbetas?

Martyna Kurzak

unread,
May 14, 2013, 2:21:10 PM5/14/13
to Kasia Salamońska, Paulina Mizura, rlpr...@googlegroups.com
Szukam jak wyliczyć dfbetas dla kategorii...

Paulina Mizura

unread,
May 14, 2013, 2:52:12 PM5/14/13
to Martyna Kurzak, Kasia Salamońska, rlpr...@googlegroups.com
No właśnie z Tomkiem sie urwał kontakt, próbuję jeszcze przez fejsa. A zadziałał cokolwiek ten kawałek jego kodu? Skąd wiesz, że to arbitralne kryterium?

Kasia Salamońska

unread,
May 14, 2013, 3:27:21 PM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Znaczy korzystam ze wzoru na wyliczenie tej wartosci dfbetas i ją stosuje sie do wszystkich zmiennych.

Kasia Salamońska

unread,
May 14, 2013, 3:30:25 PM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Nie wiem co miało znaczyć to "sftbeta" , w kazdym razie nie zadziałało. Zrobiłam po swojemu, jak widać w kodzie.

Kasia Salamońska

unread,
May 14, 2013, 5:05:11 PM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Rozmawiałam z kolezanka i oni maja tak samo ze dfbetas dla n-1 kategorii i podobno tak jest dobrze :) I oni nie wyrzucaja tych odstajacych tylko pokazuja wykresy jako analize tych obserwacji.

Co my robimy? Bo pozbycie się 70 obserwacji czyli jakiejs 1/5 to trochę sporo. A innej wartosci odciecia niz to wyliczone ze wzoru 0.11 raczej nie powinno sie przyjmować.

Kasia Salamońska

unread,
May 14, 2013, 5:51:19 PM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Dla próby wzięłam wartosc 0,2 i po usunieciu ze zbioru obserwacji wpływowych zrobiłam dla niego regresje uzywajac tego ustalonego modelu. Ale wychodzą dziwne rzeczy typu pole pod ROC rowne 0.97 o_o. Proponuję więc zostawic te obserwacje odstajace po prostu bo jak wycinamy tyle obserwacji to sie wali caly model.
Co sądzicie??

Ja jutro zrobie do prezentacji część dotyczącą modelu ze zm. binarną plus te katrgoryzacje wieku i zmienne wplywowe..
Martyna rozumiem że Ty zanalizujesz model uporządkowany?
Paulina, czy mogłabyś spróbować zająć się tym wielomianowym? Bo chyba wychodzi na to że na Karolinę nie mamy co liczyć....

Paulina Mizura

unread,
May 14, 2013, 6:21:04 PM5/14/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Hm, jakoś dla mnie bezcelowa jest analiza obs odstających bez ich usuwania... Ale to 0,97 to chyba dobrze świadczy :> czy jak?

Wielomianowy jest już zrobiony, chodzi tylko o analizę i wrzucenie tego do prezentacji? Mogę to oczywiście zrobić.

Aha i jeszcze jedna kwestia pojeciowa, bo widzę, że używasz Kasia okreslenia "regresja binarna" na ten nasz model logitowy. Z tego co mi wiadomo, to regresja binarna to w ogóle inny typ modelu - LMP, w którym wszystkie zmienne są binarne.

Kasia Salamońska

unread,
May 14, 2013, 6:55:11 PM5/14/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Paulina, weź najlepiej sama popróbuj z tymi wpływowymi bo ja juz nie wiem.... 0.97 to bankowo nie jest poprawne, juz wynik powyzej 0,8 Iga uznala za podejrzanie wysoki. Parametry sie przede wszystkim sypią bo po usunieciu tylu obserwacji, zmienne wczesniej wybrane przestają być istotne.

Chyba że usunąć tych 70-80 obserwacji z 330 i na nowo stepwisem robic model. Tyle że wtedy pojawia sie nowe obserwacje wplywowe i  tak w kółko.... I jakim cudem tyle tych wpływowych obserwacji jest ja się pytam?!

Co do nazewnictwa to oczywiscie masz racje, pisalam tak bo kazda i tak wiedziala o co chodzi. Wg slajdów Igi nazwa powinna brzmiec model binarnej regresji logistycznej :)

Do wielomianowego jest ten kod i wyniki. Ewentualnie jestli jakies testy tam tez byly potrzebne to mozesz dopisac komendy analogicznie do tego co pisalam w reg_bin_wiek - jak np "lackfit" czyli test hosmera-lemenshowa (jesli tego sie przy wielomianowym uzywa).

Paulina Mizura

unread,
May 15, 2013, 3:50:05 AM5/15/13
to Kasia Salamońska, Martyna Kurzak, rlpr...@googlegroups.com
Aha. No to zostawmy model z wpływowymi, ale napiszmy, że wpływowych było bardzo dużo i ich usunięcie zaburzyło model i wyszło podejrzanie duże roc. Żeby nie było, że w ogóle pominęlismy temat obs odstajacych i wplywowych :)


Kasia Salamońska

unread,
May 15, 2013, 4:05:23 AM5/15/13
to Paulina Mizura, Martyna Kurzak, rlpr...@googlegroups.com
Nie no, wrzuci się jakies te wykresy dfbeta i taki komentarz jak napisałaś można dać.
Czekam jeszcze na odpowiedź jednego znajomego w tej sprawie - może on coś mi doradzi.

karolina.nowakowska9

unread,
May 15, 2013, 7:22:32 AM5/15/13
to RLprojekt
Cześć Dziewczyny,

przepraszam, że się odzywam na ostatnią chwilę.

Jeśli chodzi o pytania, które Wam przesłałam z AHZ i RL to one są
sprzed 3 semestrów. Koleżanka nic mi nie wspominała, że korzystała z
jakiś książek, więc pewnie ta sterta slajdów spokojnie nam wystarczy.
Ja 2 semestry temu robiłam AHZ i spora część (ale nie wszystko) z tych
pytań się pokryła.

Co do naszej jutrzejszej prezentacji, to za 3h usiądę do regresji
wielomianowej (jeszcze jestem w pracy...) i prześlę Wam wyniki,
interpretacje i prezentację.

Pozdrawiam,
Karolina

On 13 Maj, 16:45, Paulina Mizura <paulina.miz...@gmail.com> wrote:
> Właśnie, trzeba mieć najpierw te obs. odstające, bo one miały być usunięte
> po modelu logitowym a przed wielomianowym i uporządkowanym. Martyna,
> obliczyłaś te dffits i dfbetas? :>
>
> Jeśli w naszej próbie jest tylko 16% jedynek, to na pewno ona jest
> niezbilansowana - musimy zmienić punkt odcięcia. Wtedy zupełnie inaczej
> może wyglądać tabela przypadków poprawnej predykcji.
>
> Wg mnie można wrzucić jakąś interakcję. Do logitowego raczej, bo wydaje mi
> się, że w innych modelach to juz będzie szczyt komplikacji :) Nie wiemy na
> 100% czy miała być interakcja, czy nie, wiec lepiej dla pewności wrzucić,
> nie zajmie to dużo czasu, trzeba tylko dodać "|" albo "*" między wybranymi
> zmiennymi (pytanie: czy tylko dla niektórych zmiennych interakcje czy dla
> wszystkich?). Nasz referat był o tym, więc mogę się tym zająć... Z tym, że
> interpretacja interakcji jest dość trudna (trzeba jakieś pochodne liczyć).

Kasia Salamońska

unread,
May 15, 2013, 8:38:45 AM5/15/13
to karolina.nowakowska9, RLprojekt
To została jeszcze kwestia zastosowania modelu na tym zbiorze gpp_nowa10. Skoro Karolina jednak zrobi ten model wielomianowy to może Paulina mogłabyś sie tym zająć?


--
Otrzymujesz tę wiadomość, ponieważ subskrybujesz grupę dyskusyjną Google o nazwie "RLprojekt".

Aby anulować subskrypcję tej grupy i przestać otrzymywać z niej wiadomości, wyślij e-maila do rlprojekt+...@googlegroups.com.
Więcej opcji znajdziesz na https://groups.google.com/groups/opt_out



Paulina Mizura

unread,
May 15, 2013, 9:47:02 AM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
a co to jest za zbiór? mogłabyś go przesłać? tzn. zastosowania
wszystkich modeli na tym zbiorze?

Paulina Mizura

unread,
May 15, 2013, 9:49:39 AM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
A może chodzi o ten zbiór gpp_nowa1?

Kasia Salamońska

unread,
May 15, 2013, 10:27:52 AM5/15/13
to Paulina Mizura, karolina.nowakowska9, RLprojekt
On na cw 3 sie pojawił i mielismy sprawdzic jak ten model regresji binarnej sobie na nim daje rade. Tak przynajmniej zrozumiałam...
ggp_nowa10.sas7bdat

Paulina Mizura

unread,
May 15, 2013, 10:31:29 AM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
Ok, zrobię to.

A masz może Kasia jakieś notatki odnośnie tego, czego bedzie dotyczyć
egzamin praktyczny? Co mamy na nim w ogóle zrobić, mówiła coś na ost.
ćw.?

Kasia Salamońska

unread,
May 15, 2013, 10:34:30 AM5/15/13
to Paulina Mizura, karolina.nowakowska9, RLprojekt
W sumie niedużo powiedziała na ten temat. Jutro sie widzimy to powiem Ci to co zapamiętałam :)

Paulina Mizura

unread,
May 15, 2013, 10:41:14 AM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
Ok. A rozumiem, że mam zrobic identyczne przedziały wiekowe dla nowego
zbioru jak te dla starego? Nie na podstawie tego, co wyjdzie po
oszacowaniu na nowych danych?

Kasia Salamońska

unread,
May 15, 2013, 10:51:47 AM5/15/13
to Paulina Mizura, karolina.nowakowska9, RLprojekt
Tak, ten nowy zbiór traktujesz tymi wszystkimi przekształceniami co poddany był wyjściowy zbiór, czyli wszystkie kody z przygotowania danych plus to co był do kategoryzacji wieku.

Martyna Kurzak

unread,
May 15, 2013, 11:07:53 AM5/15/13
to Kasia Salamońska, Paulina Mizura, karolina.nowakowska9, RLprojekt
Hej,
 
Tak oczywiście ja zrobię slajdy z regresji uporządkowanej, w kodach na regresję uporządkowaną dać tylko zmienne, które wychodzą w stepwisie?
 
chyba nie ma sensu wszystkich zamieszczać od nowa....
 
Jeśli chodzi o mówienie to dzielimy się tak jak przygotowujemy prezentację? Ja mogę jeszcze o czymś powiedzieć jeśli chcecie.


Paulina Mizura

unread,
May 15, 2013, 11:08:21 AM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
Dzięki, wolałam się upewnić.

Paulina Mizura

unread,
May 15, 2013, 11:09:26 AM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
Tak, chyba najlepiej jak każdy o swojej części powie. Częścią
"wspólną" jest chyba tylko opis zbioru danych.

Kasia Salamońska

unread,
May 15, 2013, 11:16:03 AM5/15/13
to Paulina Mizura, karolina.nowakowska9, RLprojekt
Hmmm, dopiero teraz odpisał mi ten kolega... A ja juz własnie koncze robic swoja cześć wiec z tymi dfbeta juz nie podejmuje sie nic zrobić....

"Tak ma być - w sensie tyle ma być dfbet. Bo obserwacja moze miec nietypową wartość jednej zmiennej i to dla niej dfbeta sie pokitra. Poziom trzeba przyjąć rozsądnie, a nie zgodnie ze wzorem. Jak usuwa za dużo, zmień poziom. Jak za duzo obserwacji uznasz za wpływowe to będzie bez sensu. Jak jest ich dużo to to nie jest zaburzenie wyników, tylko widać coś istotnego. My w Excelu zrobiliśmy taką formułę, co w zależności od zadanego poziomu krytycznego pokazywała ile i które obserwacje usunąć. Stanęło u nas na przykład na 0,18 i 8 obserwacjach. Mało usunietych to też nie wszystko, trzeba sprawdzić czy po pierwsze zmieniły się znacznie oszacowania(powinny) oraz czy statystyki wpływu sie zepsuly (nie powinny) i czy nie ma nowych duzych dfbet(nie powinno). Jak coś z powyzszego sie nie zgadza, to moze trzeba usunac jeszcze mnie ? Wszystko na zdrowy rozsadek "

Paulina Mizura

unread,
May 15, 2013, 11:17:45 AM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
No ok, jak już skonczyłaś robić swoją część to bez sensu od nowa to robić

Karolina Nowakowska

unread,
May 15, 2013, 11:18:05 AM5/15/13
to Paulina Mizura, RLprojekt
Hej,

przesyłam jeszcze projekt i kody, które dostałam od koleżanki sprzed 3 semestrów.
W tym pierwszym pliku na stronie 22 zaczyna się makro, które rysuje różnice odsetka poprawnych predykcji między zb. walidacyjnym i uczącym.

Paulina, jeśli nie wiesz o co chodzi z tą walidacją na zbiorze ggp_nowa10
to ja się mogę tym zająć.

Biernacki_Jakubik_Maciorowska_kody_do_projektu_regresja_logistyczna.docx
Biernacki_Jakubik_Maciorowska_projekt_regresja_logistyczna.docx

Kasia Salamońska

unread,
May 15, 2013, 11:29:38 AM5/15/13
to Paulina Mizura, karolina.nowakowska9, RLprojekt
Szkoda, że mi tak późno odpisał no ale trudno... Przesyłam prezentacje z doklejoną swoją częścią. Zmieniłam nazwy modeli na takie które Iga u siebie na tych starych slajdach ma :P Oceńcie czy wszystko gra, czy coś trzeba poprawić/dodać.


RL_prezentacja_plus_binarny.pptx

Martyna Kurzak

unread,
May 15, 2013, 12:08:08 PM5/15/13
to Kasia Salamońska, Paulina Mizura, karolina.nowakowska9, RLprojekt
Kasia,
 
model uporządkowany przeprowadzać na całym zbiorze, czy tylko na zmiennych wybranych w stepwisie? Chyba jednak na wszystkich zamiennych, bo tamta analiza dotyczyla regresji binarnej...


Paulina Mizura

unread,
May 15, 2013, 12:08:25 PM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
Ok, zaraz poprawię te drobne wcześniejsze uwagi odnośnie prezentacji.
Kasia, mogłabyś mi wysłać pierwotny zbiór ze wszystkimi zmiennymi,
przed odflitrowaniem? Tam jak piszę o brakach danych, to wychodzi, ze
z 600-el. zbioru powstał chyba 352-el. zbiór, a to nieprawda, że to
braki danych, tylko po prostu duża część osób w ogole nie pracowała.
Chciałam napisać, ile jest faktycznie braków :)

No z tą walidacją to sprawa wydaję się prosta, puścić kod do nowych
danych i opisać jakie są różnice w porównaniu z poprzednim zbiorem.
To makro się pusci na koncu, wyjdzie jeden wykres + opis, tak?

Paulina Mizura

unread,
May 15, 2013, 12:17:42 PM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt

Paulina Mizura

unread,
May 15, 2013, 12:18:49 PM5/15/13
to Kasia Salamońska, karolina.nowakowska9, RLprojekt
Hm, zastanawiałam się, czemu wątek się przeniósł do nowej wiadomości i
w starym nie da się wysyłać już nic... Może jest limit 100 wiadomości
w jednym wątku? :)

Martyna Kurzak

unread,
May 15, 2013, 12:22:21 PM5/15/13
to Paulina Mizura, Kasia Salamońska, karolina.nowakowska9, RLprojekt
Tak, chyba jest limit :)


It is loading more messages.
0 new messages