15.09.06 godz 8.20. SPOTKAJMY SIE DZISIAJ. Bede na wydziale od 18tej
do 21-22giej.
____________________________________________________________________
14.09.06 godz 8.30. Niestety, ze wzgledu na klopoty ze zdrowiem
ODWOLUJE DZISIEJSZE SPOTKANIE. Moze spotkamy sie jutro. Informacja w tej
sprawie bedzie jutro rano na tej stronie.
____________________________________________________________________
11.09.06 godz 8.30. Zagadnienia do egz Pis sie nie zmieniaja. Jesli chodzi
o Komp, to prosze: (i) pocwiczyc obliczanie miar zaleznosci opartych na gestosciach.
(przyda sie funkcja table, density); (ii) przypomniec sobie analize wariancji
i porownania wielokrotne; (iii) prosze sprawdzic jak sie liczy odleglosci
nieeuklidesowe za pomoca dist (rezultat mozna wykorzystac do hclust).
Reszta bez zmian.
8.09.06. Witam Panstwa po wakacjach i zapraszam chetnych na konsultacje
w pn w godz 18-21. Chcialbym, zeby egz poprawkowy byl "izomorficzny"
z poprzednim. W niedziele uzupelnie wczesniejszy opis zadan -
prosze zwrocic uwage na tematy, ktore tam sie pojawily, ale nie zostaly
wykorzystane na egz...
____________________________________________________________________
29.06.06. Przypominam, ze zaliczenie egzaminow Komp i Pis jest niezalezne:
osoby, ktore nie zaliczyly tylko jednego egzaminu, powinny poprawic tylko
ten egzamin.
29.06.06. godz. 11.45. W pliku EgzPisemny2106.txt sa wyniki
egz pisemnego.
28.06.06. godz. 21.00. Wyniki egz pisemnego opublikuje jutro przed
poludniem. - Uwzglednilem wiele reklamacji i chcialbym jeszcze raz przeczytac
wszystkie prace.
28.06.06. godz. 18.00. W pliku EgzPis210606punktacja.pdf sa zasady punktacji
na egz. pis.
28.06.06. godz. 10.00. Bede na wydziale od ok 16.30 do 22giej (przynajmniej).
Zapraszam na konsultacje, reklamacje i po wpisy. Im pozniej, tym lepiej (chlodniej).
27.06.06. godz. 18.45. Maraton sprawdzania egz komp zakonczony.
W archiwum Wyniki2106.zip sa dwa pliki: w ".pdf" sa zbiorcze wyniki i zasady
punktacji, natomiast w ".txt" jest lista z wynikami w formacie: numer indeksu,
pesel, ocena.
Potrzebuje jeszcze ok 4-5 godz na sprawdzenie egz pisemnych. Jutro
po poludniu bede czekal na Panstwa.
26.06.06. Poprawilem komentarz w 1szej czesci Cars93.R, bo
byl niezgodny z wynikiem obliczen. Powinno byc: obs 34 i 37 sa odstajace.
Przepraszam Panstwa, bo spozniam sie z rozwiazaniami. Mam
nadzieje do wieczora skonczyc sprawdzanie egz komp a jutro do poludnia
egz pis. O postepach bede informowal w tym miejscu.
W tym katalogu, pliku Egz2106.zip sa teksty egz komp i rozwiazania zadan z regresja
wielu zmiennych.
____________________________________________________________________
20.06.06. (drobna korekta o godz 22.20)
____________________________________________________________________
EGZAMIN KOMPUTEROWY (napisane o godz 20.00)
Ogolny opis zadan - rezerwuje sobie prawo do 15 % niespodzianki
z programowania raczej niz ze statystyki.
1.- 2. Eksploracja.
(i) Wczytac dane.
(ii) Narysowac plaszczyzne dwoch glownych skladowych i
policzyc udzial ich wariancji w calkowitej wariancji danych.
(iii) Sprawdzic za pomoca boxplot.stats i boxplot, czy sa obs odstajace.
(iv) Poklasteryzowac dane.
(v) Narysowac estymatory gestosci w klastrach.
3. Oszacowac efektywnosc (wg innej miary zaleznosci niz p-stwo popr.
predykcji...) klasyfikacji w eksperymencie kroswalidacji dla lda, qda, nnet i regresji
logistycznej zaimplementowanej w multinom z library(nnet).
4. Zbudowac model regresji lin wielu zmiennych. Mozna wykorzystac
moje skrypty samochodyNowe.R i bodyfat.R.
5. Zbudowac model lin dla danych nieliczbowych lub mieszanych.
Wykonac selekcje cech za pomoca stepAIC i porownania wielokrotne za
pomoca TukeyHSD (mozna wykorzystac analiy z cwiczen na danych quine i immer).
____________________________________________________________________
EGZAMIN PISEMNY (napisane o godz 17.30)
Podaje wiekszy zbior zadan - nie wszystkie sa precyzyjnie sformulowane,
te, ktore sa - moga byc troszke zmienione.
1. PCA (albo LDA): wyprowadz wzor na pierwsza skladowa glowna (zmienna
kanoniczna).
2. Najwazniejsze wlasnosci korelacji, odleglosci Kullbacka-Leiblera
lub wspolnej informacji.
3. Rozklad (ko)wariancji.
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca w przedziale [0,1].
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA,
dyskryminacja logistyczna (LOGISTIC), siecia neuronowa (NN). Podaj kryterium
optymalizacyjne dla wyznaczania parametrow. Podaj liczbe parametrow kazdej
metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i LOGISTIC f sa liniowe od x, dla QDA mamy
f-cje kwadratowa.
8. Zalozmy, ze S2 jest probkowa wariancja w modelu normalnym
N(0,si^2). Policz rozklad n*S2/si^2.
9. Niech X bedzie macierza danych oraz H = X %*% solve(t(X)%*%X) %*% t(X).
Udowodnij, ze (i) 0<= H[i,i] <=1; (ii) H[i,i] = cor(y[i],yPred[i])^2.
____________________________________________________________
ODPOWIEDZI NA CZESTE PYTANIA (skonczone o godz 17.50).
7. Mamy model logitowy logit(p(awaria[i]|x[i])) = t(c(1,x[i]))%*%beta,
i=1,...,n.
W zadaniu regresji logistycznej chodzi o estymacje p(awaria|x),
w dyskryminacji - o interpretacje wspolczynnikow beta, w klasyfikacji
- o decyzje d(x) = ifelse( p(awaria|x)>.5, 1, 0).
6. Roznica miedzy dyskryminacja a klasyfikacja (predykcja do
skon liczby klas) wynika z interpretacji zadania matem. Mowimy o dyskryminacji
irysow, bo celem Fishera byl opis odmian tej rosliny za pomoca prostych
mierzalnych cech. Powiemy o klasyfikacji kobiet Pima, bo dane te moga sluzyc
do budowy taniego testu na obecnosc cukrzycy.
5. Na cwiczeniach na ogol "wkladalismy" do lm wektor y i macierz X.
Jest tak chyba prosciej na poczatku nauki R lub w sytuacji, gdy wszystkie
zmienne sa liczbowe i jest ich duzo. Ogolniej, czyli dla modeli liniowych
mieszanych (cechy liczbowe i nominalne) lub dla regresji logistycznej (glm)
trzeba uzywac formul zawierajacych nazwy zmiennych, ktore sa kolumnami tabeli
(data.frame). Np lm(fat~bmi+tri,data=data.frame(X)). Kiedy zmiennych
wyjasniajacych jest duzo, to taki zapis jest niewygodny, wiec uzywa sie aliasu
(skrotu) ".", ktory w lm lub glm oznacza "wszystkie cechy procz wyjasnianej".
Np m1=lm(Paliwo~.,data=Auta) oznacza regresje zuzycia paliwa za pomoca
pozostalych cech w tabeli Auta (tabela utworzona z danych samochody.dat).
4. Funkcja update sluzy do wygodnego zapisu i rozwiazania modelu
zmodyfikowanego, jesli mamy model wczesniejszy, tutaj m1. Zapis
update(m1,.~.-Szer) oznacza nowa regresje zmiennej Paliwo za pomoca wszystkich
pozostalych cech z wyjatkiem Szer. W zapisie ".~." pierwsza kropka oznacza lewa
strone formuly z m1, druga kropka - prawa strone. Pierwsza kropke mozna pominac,
ale wole tego nie robic! Podobna konwencja obowiazuje w stepAIC.
3. Kryteria informacyjne minimalizowane w procedurach automatycznego
wyboru modelu maja czesto postac:
- logWiarygodnosc + wielkosc_modelu
Pierwszy czlon oznacza blad w dopasowaniu modelu do danych uczacych; drugi
czlon - kare za wielkosc modelu. Popularne sa dwa kryteria:
AIC (Akaike Informacion Criterion) i BIC (Bayes Information Criterion).
AIC = -logWiarygodnosc + 2*p
BIC = -logWiarygodnosc +log(n)*p,
gdzie p - wymiar wektora cech obserwowanych, n - liczba obserwacji.
Widac, ze jedyna roznica miedzy AIC i BIC jest czynnik "k" stojacy przy p.
Dlatego oba kryteria mozna optymalizowac jedna funkcja stepAIC, przestawiajac
ewentualnie k. Domyslnie jest k=2, zgodnie z nazwa funckji.
2. Zauwazacie Panstwo arbitralnosc wyboru koncowego modelu (dla bodyfat
czy samochodow) i zastanawiacie sie, jak bede ocenial! - Chcialbym, zeby
modele byly:
(A) Otrzymane w oparciu o uniwersalne zasady:
(i) Np procedure Bonferroniego + testy t-studenta oparte na residuach dla
identyfikacji obserwacji odstajacych.
(ii) Obserwacje rozkladow brzegowych (+ ew przeksztalenie log x-ow)
oraz przeksztalcenia logtrans i boxcox zmiennej zaleznej y.
(iii) Testy istotnosci wspolczynnikow + stepAIC + dropterm (ew addterm)
dla selekcji cech.
(B) Aby koncowy model byl "dopuszczalny", nie dal sie "jednostanie",
czyli pod kazdym wzgledem, poprawic. Modele, ktore otrzymalem dla bodyfat
i samochodow takie sa. Np dla samochodow model m4, czyli logPaliwo ~ logPojemn
daje cor=.92 podczas, gdy modele wieksze m2 i m3 daja .93. W tym przypadku
model m3 rowniez uwazam za dopuszczalny.
Jestem pod wrazeniem ksiazki J. Farawaya i chcialbym zacytowac Panstwu
fragment ze str 134/135:
In comparing the competing analyses of two statisticians, it may sometimes
be possible to determine that one analysis is clearly superior. However, in
most cases, particularly when the analysts are experienced and professionally
trained, a universally acceptable judgments of superiority will not be possible.
1. Planuje na egz komp zadanie z klasyfikacji lub regresji za
pomoca sieci neuronowej. W pliku NOWE/CrossValKlasCrabs.R jest porownanie qda
i nnet w kroswalidacji pieciokrotnej na danych crabs. Prosze zwrocic uwage na
parametry nnet:
(i) Nastawilem softmax=T, bo klasyfikuje do wiecej niz dwoch klas
(patrz help). Kryterium softmax to optymalizacja wiarygodnosci danych
w modelu bardzo bliskim dyskryminacji logistycznej.
Zaklada sie, ze log(p[k|x]) = f(k,W,x), gdzie k=1,...,K oznacza klase,
x - obserwacje, W - wagi (parametry) sieci oraz f jest funkcja klasyfikacyjna
sieci neuronowej (na wykladzie oznaczalem ja "y z daszkiem").
Regula klasyfikacyjna jest postaci d(x) = argmax_k f(k,W,x).
(ii) Latwo zauwazyc, ze siec neuronowa z kryterium softmax ma
(p+1+K)*size + K parametrow, gdzie p jest wymiarem wektora x oraz size oznacza
liczbe wezlow warstwy ukrytej. Nastawilem size=16, bo wtedy siec ma 164
parametry, przy 160 obserwacjach uczacych, wiec mozna ja uwazac za metode
nieparametryczna (dla porownania qda ma 80 parametrow). Ogolnie,
przyrownujac liczbe parametrow do liczby obserwacji n, otrzymujemy wzor:
size = ceiling( (n-K)/(p+1+K) ).
_____________________________________________________________________
19.06.06. Planuje na egz komp zadanie wymagajace budowy modelu regresji lin wielu zmiennych. Wczoraj
podalem przyklad budowy modelu dla danych bodyfat. Teraz wykonalem podobne obliczenia dla
danych samochody (NOWE/samochodyNowe.R), ktore dobrze znamy z cwiczen. Zaskoczylo mnie jak bardzo
wynik rozni sie od modelu z ksiazki J. Koronackiego i J. Mielniczuka!
Poprawilem nastepujace bledy:
(i) w zad.4 w NOWE/EgzKomp060606.pdf
zamiast "klasteryzacji" powinno byc "klasyfikacji";
(ii) zamienilem wariant
zadan komp w EGZAMINY/Kol1606.pdf aby pasowal do odpowiedzi w EGZAMINY/Kol1606.R.
(iii) w rozwiazaniu zad 3. (wykresy gestosci 2d) w pliku EGZAMINY/Kol1606.R
niepotrzebnie uzylem funkcji rev. Obecnie dodalem w komentarzu krotki programik
wyjasniajacy jak R przechowuje i rysuje macierze. Blad zauwazyl p Pawel
Idzikowski - dziekuje.
18.06.06. Bede jutro w pracy od ok 12tej do wieczora.
Uzupelnilem regresje wielu zmiennych dla danych "bodyfat":
W katalogu NOWE jest opis danych w "bodyfat.pdf" a w archiwum "bodyfat2.zip"
sa dane, rozwiazanie Tracy Bergemann oraz moj programik.
16.06.06. W katalogu NOWE sa przykladowe zad egzaminacyjne
i nowe materialy.
12.06.06. Robie porzadek na tej stronie! Bede na wydziale jutro, tj we wtorek 13.06 od ok 10tej do
wieczora. Zapraszam na konsultacje.