(pn 29.10 godz 13.15) Egz zdal tylko M. Sz.
___________________________________________________
(pn 20.10 godz 20.15) 3ci termin bedzie 27.10 o 10.15 w sali 2180.
___________________________________________________
(wt 16.09 godz 22.30) Dla osob, ktore otrzymaly zgode p Dziekana,
planuje dodatkowy egz pis (3ci termin) na 27.10 o godz 10tej albo 14tej.
Zainteresowanych prosze o deklaracje, ktory termin jest dla nich wygodniejszy.
____________________________________________________
(pn 8.09 godz 13.40) Bede na wydziale w najblizsza sr w godz 14-18.
Zapraszam na konsultacje.
____________________________________________________
(niedz 7.09 godz 23.30) Sprawdzilem Panstwa prace. Wyniki i opis
punktacji jest na stronie
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2008/2termin/
Jutro od ok 12.15 mozna bedzie obejrzec prace.
____________________________________________________
(sr 27.08 godz 10.40) Pani Ula Herman-Izycka bedzie odpowiadala
na pytania Panstwa w pt, 29.08 od godz 15.00 w ktoryms z labow komp.
____________________________________________________
(wt 26.08 godz 20.30) Przykro mi poinformowac Panstwa, ze nie bede
na wydziale przed egz popr we wt 2.09. Lecze uraz kregoslupa i musze lezec.
____________________________________________________
(czw 31.07 godz 8.00) Bede dzisiaj na wydziale w godz 12-18. Zapraszam
na konsultacje i poprawke.
____________________________________________________
(wt 29.07 godz 7.15) Bede dzisiaj na wydziale w godz 10-14.30. Zapraszam
na konsultacje i poprawke.
____________________________________________________
(pn 21.07 godz 9.40) Bede jutro na wydziale w godz 14-18. Zapraszam
na konsultacje i poprawke.
____________________________________________________
(pn 14.07 godz 16.40) Bede jutro na wydziale w godz 14-18.30. Zapraszam
na konsultacje i poprawke.
____________________________________________________
(wt 8.07 godz 10.20) Bede dzisiaj na wydziale w godz 13-18. Zapraszam
na poprawke.
____________________________________________________
(wt 1.07 godz 18.15) Wstawilem oceny i zatwierdzilem protokol. Ocena
koncowa jest zaokraglona w gore srednia z ocen egz pis i egz komp. W punktacji
z egz pis obnizylem progi o 0.5 pkt nie tylko dla 3.0, ale dla wszystkich ocen.
____________________________________________________
(wt 1.07 godz 9.50) Zamierzam byc na wydziale dzis od poludnia do
ok 18tej. Zapraszam na poprawe osoby, ktore dostaly z egz pis 5.0 pkt.
Kolejny termin poprawy planuje ok 5-10 lipca.
____________________________________________________
(wt 24.06 godz 21.10) Zamierzam byc na wydziale na poczatku przyszlego
tyg. Dokladny termin podam rano w pn. Zapraszam na poprawe osoby, ktore
dostaly z egz pis 5.0 pkt. Kolejny termin poprawy planuje ok 5-10 lipca.
____________________________________________________
(pt godz 21.15) Po dlugim namysle zdecydowalem sie obnizyc prog
na zaliczenie egz pis z 6.0 na 5.5. Osoby, ktore dostaly dokladnie 5.0
punktow z tego egz jestem gotow dodatkowo pytac do konca lipca (jedno
pytanie dostosowane do okazanych slabosci - odpowiedz pisemna w 20 min).
Prosze chetnych o kontakt.
____________________________________________________
(pt godz 13.10) Sprawdzilem egz pis, dodalem do kat EGZAMINY/2008/ opis
punktacji i dopisalem do wynikow kolumne z suma punktow w egz pis.
____________________________________________________
(pt godz 09.00) Sprawdzam egz pisemne. Mam nadzieje, ze skoncze do poludnia.
Zapraszam na konsultacje na 14ta.
Tradycyjnie, do zaliczenia przedmiotu trzeba zdobyc pozytywne oceny z obu
czesci egz. We wrzesniu poprawia sie tylko te czesc, ktorej sie nie zaliczylo.
____________________________________________________
(pt godz 01.45) W podkatalogu EGZAMINY/2008 sa teksty zadan, wyniki i opis
punktacji do egz komp. Zdecydowalem sie, tak jak w ubieglych latach, stawiac osobne
oceny za czesc komp i pis. Ocena koncowa bedzie zaokraglona srednia z tych ocen.
Sprawdzam czesc pisemna. Mam nadzieje, ze skoncze do poludnia i zorganizuje konsultacje.
____________________________________________________
(sr godz 22.10) Jutro beda wyniki. W pt o 12tej zapraszam na konsultacje.
____________________________________________________
(wt godz 20.30) Przepraszam Panstwa, spozniam sie z rozwiazaniami. Do jutra nie zdaze.
Odezwe sie jutro wieczorem.
____________________________________________________
(pt godz 9.00) W tym roku nie omawialem na wykladzie ani sieci
neuronowych ani drzew klasyfikacyjnych, dlatego nie bedzie tych tematow
na egz. Planuje natomiast na obie czesci egz niespotykane dotad zad
dotyczace modeli lin. Trzeba bedzie wykorzystac rozklad QR, zeby policzyc
pewne charakterystyki jakosci modelu lub przetestowac jakas prosta hipoteze
lin.
____________________________________________________
Zapraszam na konsultacje dzisiaj tj w czw od 14tej.
____________________________________________________
MOJE PLANY EGZAMINACYJNE (napisane we wt o godz 23.00)
EGZAMIN KOMPUTEROWY (~5 zadan)
Ogolny opis zadan - rezerwuje sobie prawo do 25 % niespodzianki
(raczej z programowania w R niz ze statystyki).
1.- 2. Eksploracja.
(i) Wczytac dane.
(ii) Narysowac plaszczyzne dwoch glownych skladowych i
policzyc udzial ich wariancji w calkowitej wariancji danych.
(iii) Sprawdzic za pomoca boxplot.stats i boxplot, czy sa obs odstajace.
(iv) Poklasteryzowac dane.
(v) Narysowac estymatory gestosci dwoch pierwszych skladowych glownych w klastrach.
3. Porownac efektywnosc 2-3 metod klasyfikacji (wg p-stwa popr.
predykcji lub innej miary) klasyfikacji w eksperymencie kroswalidacji.
Przypominam, ze poznali Panstwo: lda, qda i regresje logistyczna z glm.
Warto poczytac rowniez o funkcji multinom z library(nnet), ktora implementuje
regresje logistyczna dla wielu klas (inaczej regresje wielomianowa).
4. Zbudowac model regresji lin wielu zmiennych - przypominam moje skrypty
samochodyNowe.R i bodyfat.R.
5. Zbudowac model lin dla danych nieliczbowych lub mieszanych.
Wykonac selekcje cech za pomoca stepAIC. Mozna wykorzystac analizy
z cwiczen na danych quine lub immer.
____________________________________________________________________
EGZAMIN PISEMNY (~5 zadan)
Podany zbior zadan jeszcze uzupelnie. Nie wszystkie zadania sa precyzyjnie
sformulowane. Te, ktore sa - moga byc troszke zmienione.
1. PCA (albo LDA): wyprowadz wzor na pierwsza skladowa glowna (zmienna
kanoniczna).
2. Podaj najwazniejsze wlasnosci korelacji, odleglosci Kullbacka-Leiblera
lub wspolnej informacji.
3. Udowodnij rozklad wariancji lub rozklad macierzy kowariancji dla modelu
liniowego.
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca o wartosciach w przedziale [0,1].
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA,
dyskryminacja logistyczna (LOGISTIC). Podaj kryterium optymalizacyjne
dla wyznaczania parametrow. Podaj liczbe parametrow kazdej
metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i LOGISTIC f sa liniowe od x, dla QDA mamy
f-cje kwadratowa.
8. Zalozmy, ze S2 jest probkowa wariancja w modelu normalnym
N(0,si^2). Policz rozklad n*S2/si^2.
9. Niech X bedzie macierza danych oraz H = X %*% solve(t(X)%*%X) %*% t(X
Udowodnij, ze (i) 0<= H[i,i] <=1; (ii) H[i,i] = cor(y[i],yPred[i])^2.
____________________________________________________________
UWAGI.
1. Mamy model logitowy logit(p(awaria[i]|x[i])) = t(c(1,x[i]))%*%beta,
i=1,...,n.
W zadaniu regresji logistycznej chodzi o estymacje p(awaria|x),
w dyskryminacji - o interpretacje wspolczynnikow beta, w klasyfikacji
- o decyzje d(x) = ifelse( p(awaria|x)>.5, 1, 0).
2. Roznica miedzy dyskryminacja a klasyfikacja (predykcja do
skon liczby klas) wynika z interpretacji zadania matem. Mowimy o dyskryminacji
irysow, bo celem Fishera byl opis odmian tej rosliny za pomoca prostych
mierzalnych cech. Powiemy o klasyfikacji kobiet Pima, bo dane te moga sluzyc
do budowy taniego testu na obecnosc cukrzycy.
3. Na cwiczeniach na ogol "wkladalismy" do lm wektor y i macierz X.
Jest tak chyba prosciej na poczatku nauki R lub w sytuacji, gdy wszystkie
zmienne sa liczbowe i jest ich duzo. Ogolniej, czyli dla modeli liniowych
mieszanych (cechy liczbowe i nominalne) lub dla regresji logistycznej (glm)
trzeba uzywac formul zawierajacych nazwy zmiennych, ktore sa kolumnami tabeli
(data.frame). Np lm(fat~bmi+tri,data=data.frame(X)). Kiedy zmiennych
wyjasniajacych jest duzo, to taki zapis jest niewygodny, wiec uzywa sie aliasu
(skrotu) ".", ktory w lm lub glm oznacza "wszystkie cechy procz wyjasnianej".
Np m1=lm(Paliwo~.,data=Auta) oznacza regresje zuzycia paliwa za pomoca
pozostalych cech w tabeli Auta (tabela utworzona z danych samochody.dat).
4. Funkcja update sluzy do wygodnego zapisu i rozwiazania modelu
zmodyfikowanego, jesli mamy model wczesniejszy, tutaj m1. Zapis
update(m1,.~.-Szer) oznacza nowa regresje zmiennej Paliwo za pomoca wszystkich
pozostalych cech z wyjatkiem Szer. W zapisie ".~." pierwsza kropka oznacza lewa
strone formuly z m1, druga kropka - prawa strone. Pierwsza kropke mozna pominac,
ale wole tego nie robic! Podobna konwencja obowiazuje w stepAIC.
5. Kryteria informacyjne minimalizowane w procedurach automatycznego
wyboru modelu maja czesto postac:
- logWiarygodnosc + wielkosc_modelu
Pierwszy czlon oznacza blad w dopasowaniu modelu do danych uczacych; drugi
czlon - kare za wielkosc modelu. Popularne sa dwa kryteria:
AIC (Akaike Informacion Criterion) i BIC (Bayes Information Criterion).
AIC = -logWiarygodnosc + 2*p
BIC = -logWiarygodnosc +log(n)*p,
gdzie p - wymiar wektora cech obserwowanych, n - liczba obserwacji.
Widac, ze jedyna roznica miedzy AIC i BIC jest czynnik "k" stojacy przy p.
Dlatego oba kryteria mozna optymalizowac jedna funkcja stepAIC, przestawiajac
ewentualnie k. Domyslnie jest k=2, zgodnie z nazwa funckji.
6. Zauwazacie Panstwo arbitralnosc wyboru koncowego modelu (dla bodyfa
czy samochodow) i zastanawiacie sie, jak bede ocenial! - Chcialbym, zeby
modele byly:
(A) Otrzymane w oparciu o uniwersalne zasady:
(i) Np procedure Bonferroniego + testy t-studenta oparte na residuach dla
identyfikacji obserwacji odstajacych.
(ii) Obserwacje rozkladow brzegowych (+ ew przeksztalenie log x-ow)
oraz przeksztalcenia logtrans i boxcox zmiennej zaleznej y.
(iii) stepAIC + dropterm (ew addterm) dla selekcji cech.
(B) Aby koncowy model byl "dopuszczalny", nie dal sie "jednostanie",
czyli pod kazdym wzgledem, poprawic. Modele, ktore otrzymalem dla bodyfat
i samochodow takie sa. Np dla samochodow model m4, czyli logPaliwo ~ logPojemn
daje cor=.92 podczas, gdy modele wieksze m2 i m3 daja .93. W tym przypadku
model m3 rowniez uwazam za dopuszczalny.