(pn 29.10 godz 13.15) Egz zdal tylko M. Sz.
___________________________________________________

(pn 20.10 godz 20.15) 3ci termin bedzie 27.10 o 10.15 w sali 2180.
___________________________________________________

(wt 16.09 godz 22.30) Dla osob, ktore otrzymaly zgode p Dziekana, planuje dodatkowy egz pis (3ci termin) na 27.10 o godz 10tej albo 14tej. Zainteresowanych prosze o deklaracje, ktory termin jest dla nich wygodniejszy.
____________________________________________________

(pn 8.09 godz 13.40) Bede na wydziale w najblizsza sr w godz 14-18. Zapraszam na konsultacje.
____________________________________________________

(niedz 7.09 godz 23.30) Sprawdzilem Panstwa prace. Wyniki i opis punktacji jest na stronie http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2008/2termin/
Jutro od ok 12.15 mozna bedzie obejrzec prace.
____________________________________________________

(sr 27.08 godz 10.40) Pani Ula Herman-Izycka bedzie odpowiadala na pytania Panstwa w pt, 29.08 od godz 15.00 w ktoryms z labow komp.
____________________________________________________

(wt 26.08 godz 20.30) Przykro mi poinformowac Panstwa, ze nie bede na wydziale przed egz popr we wt 2.09. Lecze uraz kregoslupa i musze lezec.
____________________________________________________

(czw 31.07 godz 8.00) Bede dzisiaj na wydziale w godz 12-18. Zapraszam na konsultacje i poprawke.
____________________________________________________

(wt 29.07 godz 7.15) Bede dzisiaj na wydziale w godz 10-14.30. Zapraszam na konsultacje i poprawke.
____________________________________________________

(pn 21.07 godz 9.40) Bede jutro na wydziale w godz 14-18. Zapraszam na konsultacje i poprawke.
____________________________________________________

(pn 14.07 godz 16.40) Bede jutro na wydziale w godz 14-18.30. Zapraszam na konsultacje i poprawke.
____________________________________________________

(wt 8.07 godz 10.20) Bede dzisiaj na wydziale w godz 13-18. Zapraszam na poprawke.
____________________________________________________

(wt 1.07 godz 18.15) Wstawilem oceny i zatwierdzilem protokol. Ocena koncowa jest zaokraglona w gore srednia z ocen egz pis i egz komp. W punktacji z egz pis obnizylem progi o 0.5 pkt nie tylko dla 3.0, ale dla wszystkich ocen.
____________________________________________________

(wt 1.07 godz 9.50) Zamierzam byc na wydziale dzis od poludnia do ok 18tej. Zapraszam na poprawe osoby, ktore dostaly z egz pis 5.0 pkt. Kolejny termin poprawy planuje ok 5-10 lipca.
____________________________________________________

(wt 24.06 godz 21.10) Zamierzam byc na wydziale na poczatku przyszlego tyg. Dokladny termin podam rano w pn. Zapraszam na poprawe osoby, ktore dostaly z egz pis 5.0 pkt. Kolejny termin poprawy planuje ok 5-10 lipca.
____________________________________________________

(pt godz 21.15) Po dlugim namysle zdecydowalem sie obnizyc prog na zaliczenie egz pis z 6.0 na 5.5. Osoby, ktore dostaly dokladnie 5.0 punktow z tego egz jestem gotow dodatkowo pytac do konca lipca (jedno pytanie dostosowane do okazanych slabosci - odpowiedz pisemna w 20 min). Prosze chetnych o kontakt.
____________________________________________________

(pt godz 13.10) Sprawdzilem egz pis, dodalem do kat EGZAMINY/2008/ opis punktacji i dopisalem do wynikow kolumne z suma punktow w egz pis.
____________________________________________________

(pt godz 09.00) Sprawdzam egz pisemne. Mam nadzieje, ze skoncze do poludnia. Zapraszam na konsultacje na 14ta.
Tradycyjnie, do zaliczenia przedmiotu trzeba zdobyc pozytywne oceny z obu czesci egz. We wrzesniu poprawia sie tylko te czesc, ktorej sie nie zaliczylo.
____________________________________________________

(pt godz 01.45) W podkatalogu EGZAMINY/2008 sa teksty zadan, wyniki i opis punktacji do egz komp. Zdecydowalem sie, tak jak w ubieglych latach, stawiac osobne oceny za czesc komp i pis. Ocena koncowa bedzie zaokraglona srednia z tych ocen.
Sprawdzam czesc pisemna. Mam nadzieje, ze skoncze do poludnia i zorganizuje konsultacje.
____________________________________________________

(sr godz 22.10) Jutro beda wyniki. W pt o 12tej zapraszam na konsultacje.
____________________________________________________

(wt godz 20.30) Przepraszam Panstwa, spozniam sie z rozwiazaniami. Do jutra nie zdaze. Odezwe sie jutro wieczorem.
____________________________________________________

(pt godz 9.00) W tym roku nie omawialem na wykladzie ani sieci neuronowych ani drzew klasyfikacyjnych, dlatego nie bedzie tych tematow na egz. Planuje natomiast na obie czesci egz niespotykane dotad zad dotyczace modeli lin. Trzeba bedzie wykorzystac rozklad QR, zeby policzyc pewne charakterystyki jakosci modelu lub przetestowac jakas prosta hipoteze lin.
____________________________________________________

Zapraszam na konsultacje dzisiaj tj w czw od 14tej.
____________________________________________________

MOJE PLANY EGZAMINACYJNE (napisane we wt o godz 23.00)

EGZAMIN KOMPUTEROWY (~5 zadan)
Ogolny opis zadan - rezerwuje sobie prawo do 25 % niespodzianki (raczej z programowania w R niz ze statystyki).

1.- 2. Eksploracja.
(i) Wczytac dane.
(ii) Narysowac plaszczyzne dwoch glownych skladowych i policzyc udzial ich wariancji w calkowitej wariancji danych.
(iii) Sprawdzic za pomoca boxplot.stats i boxplot, czy sa obs odstajace.
(iv) Poklasteryzowac dane.
(v) Narysowac estymatory gestosci dwoch pierwszych skladowych glownych w klastrach.

3. Porownac efektywnosc 2-3 metod klasyfikacji (wg p-stwa popr. predykcji lub innej miary) klasyfikacji w eksperymencie kroswalidacji. Przypominam, ze poznali Panstwo: lda, qda i regresje logistyczna z glm. Warto poczytac rowniez o funkcji multinom z library(nnet), ktora implementuje regresje logistyczna dla wielu klas (inaczej regresje wielomianowa).

4. Zbudowac model regresji lin wielu zmiennych - przypominam moje skrypty samochodyNowe.R i bodyfat.R.

5. Zbudowac model lin dla danych nieliczbowych lub mieszanych. Wykonac selekcje cech za pomoca stepAIC. Mozna wykorzystac analizy z cwiczen na danych quine lub immer.
____________________________________________________________________

EGZAMIN PISEMNY (~5 zadan)
Podany zbior zadan jeszcze uzupelnie. Nie wszystkie zadania sa precyzyjnie sformulowane. Te, ktore sa - moga byc troszke zmienione.

1. PCA (albo LDA): wyprowadz wzor na pierwsza skladowa glowna (zmienna kanoniczna).

2. Podaj najwazniejsze wlasnosci korelacji, odleglosci Kullbacka-Leiblera lub wspolnej informacji.

3. Udowodnij rozklad wariancji lub rozklad macierzy kowariancji dla modelu liniowego.

4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k) jest funkcja niemalejaca o wartosciach w przedziale [0,1].

5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".

6. Podaj wzor na optymalna regule decyzyjna z funkcja straty 1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.

7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA, dyskryminacja logistyczna (LOGISTIC). Podaj kryterium optymalizacyjne dla wyznaczania parametrow. Podaj liczbe parametrow kazdej metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x), gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami klasyfikacyjnymi. Dla LDA i LOGISTIC f sa liniowe od x, dla QDA mamy f-cje kwadratowa.

8. Zalozmy, ze S2 jest probkowa wariancja w modelu normalnym N(0,si^2). Policz rozklad n*S2/si^2.

9. Niech X bedzie macierza danych oraz H = X %*% solve(t(X)%*%X) %*% t(X Udowodnij, ze (i) 0<= H[i,i] <=1; (ii) H[i,i] = cor(y[i],yPred[i])^2.

____________________________________________________________

UWAGI.

1. Mamy model logitowy logit(p(awaria[i]|x[i])) = t(c(1,x[i]))%*%beta, i=1,...,n.
W zadaniu regresji logistycznej chodzi o estymacje p(awaria|x), w dyskryminacji - o interpretacje wspolczynnikow beta, w klasyfikacji - o decyzje d(x) = ifelse( p(awaria|x)>.5, 1, 0).

2. Roznica miedzy dyskryminacja a klasyfikacja (predykcja do skon liczby klas) wynika z interpretacji zadania matem. Mowimy o dyskryminacji irysow, bo celem Fishera byl opis odmian tej rosliny za pomoca prostych mierzalnych cech. Powiemy o klasyfikacji kobiet Pima, bo dane te moga sluzyc do budowy taniego testu na obecnosc cukrzycy.

3. Na cwiczeniach na ogol "wkladalismy" do lm wektor y i macierz X. Jest tak chyba prosciej na poczatku nauki R lub w sytuacji, gdy wszystkie zmienne sa liczbowe i jest ich duzo. Ogolniej, czyli dla modeli liniowych mieszanych (cechy liczbowe i nominalne) lub dla regresji logistycznej (glm) trzeba uzywac formul zawierajacych nazwy zmiennych, ktore sa kolumnami tabeli (data.frame). Np lm(fat~bmi+tri,data=data.frame(X)). Kiedy zmiennych wyjasniajacych jest duzo, to taki zapis jest niewygodny, wiec uzywa sie aliasu (skrotu) ".", ktory w lm lub glm oznacza "wszystkie cechy procz wyjasnianej". Np m1=lm(Paliwo~.,data=Auta) oznacza regresje zuzycia paliwa za pomoca pozostalych cech w tabeli Auta (tabela utworzona z danych samochody.dat).

4. Funkcja update sluzy do wygodnego zapisu i rozwiazania modelu zmodyfikowanego, jesli mamy model wczesniejszy, tutaj m1. Zapis update(m1,.~.-Szer) oznacza nowa regresje zmiennej Paliwo za pomoca wszystkich pozostalych cech z wyjatkiem Szer. W zapisie ".~." pierwsza kropka oznacza lewa strone formuly z m1, druga kropka - prawa strone. Pierwsza kropke mozna pominac, ale wole tego nie robic! Podobna konwencja obowiazuje w stepAIC.

5. Kryteria informacyjne minimalizowane w procedurach automatycznego wyboru modelu maja czesto postac:
- logWiarygodnosc + wielkosc_modelu
Pierwszy czlon oznacza blad w dopasowaniu modelu do danych uczacych; drugi czlon - kare za wielkosc modelu. Popularne sa dwa kryteria: AIC (Akaike Informacion Criterion) i BIC (Bayes Information Criterion).
AIC = -logWiarygodnosc + 2*p
BIC = -logWiarygodnosc +log(n)*p,
gdzie p - wymiar wektora cech obserwowanych, n - liczba obserwacji.
Widac, ze jedyna roznica miedzy AIC i BIC jest czynnik "k" stojacy przy p. Dlatego oba kryteria mozna optymalizowac jedna funkcja stepAIC, przestawiajac ewentualnie k. Domyslnie jest k=2, zgodnie z nazwa funckji.

6. Zauwazacie Panstwo arbitralnosc wyboru koncowego modelu (dla bodyfa czy samochodow) i zastanawiacie sie, jak bede ocenial! - Chcialbym, zeby modele byly:

(A) Otrzymane w oparciu o uniwersalne zasady:
(i) Np procedure Bonferroniego + testy t-studenta oparte na residuach dla identyfikacji obserwacji odstajacych.
(ii) Obserwacje rozkladow brzegowych (+ ew przeksztalenie log x-ow) oraz przeksztalcenia logtrans i boxcox zmiennej zaleznej y.
(iii) stepAIC + dropterm (ew addterm) dla selekcji cech.

(B) Aby koncowy model byl "dopuszczalny", nie dal sie "jednostanie", czyli pod kazdym wzgledem, poprawic. Modele, ktore otrzymalem dla bodyfat i samochodow takie sa. Np dla samochodow model m4, czyli logPaliwo ~ logPojemn daje cor=.92 podczas, gdy modele wieksze m2 i m3 daja .93. W tym przypadku model m3 rowniez uwazam za dopuszczalny.