15.09.09 godz 13.30. Do 20tej przyjmuje reklamacje.
15.09.09 godz 13.30. Wyniki i szczegoly punktacji egz pis sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2009/2termin/EgzPis090909wyniki.txt
15.09.09 godz 12.30. Wyniki i szczegoly punktacji egz komp sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2009/2termin/EgzKomp090909wyniki.txt
15.09.09 godz 10.00. Wyniki beda do 13tej.
14.09.09 godz 8.20. Przepraszam Panstwa, spozniamy sie ze sprawdzeniem
zadan. Wyniki beda jutro do poludnia. Oceny musza byc wstawione do polnocy wt/sr, dlatego
zapraszam na konsultacje/reklamacje jutro od 12tej.
7.09.09 godz 12.00.
Na jutrzejszym egz z teorii bedzie 5 zadan - przynajmniej 3 wybiore z listy podanej przed
1szym terminem egz uzupelnionej o ponizsze zadania (moga byc troszke zmienione).
20. Niech R^2 bedzie wspolczynnikiem dopasowania (kwadrat korelacji probkowej cor(y,y_pred))
w modelu liniowym y = X %*% beta + epsilon, gdzie epsilon ~ N(0,si2), X - macierz nx(p+1), n>p, rank(X)=p+1 oraz X[,1]=1.
Udowodnij, ze:
(i) test R^2 >c jest rownowazny testowi ilorazu wiarygodnosci;
(ii) R^2 ma rozklad beta(p/2,(n-p-1)/2).
Wskazowka do (ii): rozklad wariancji probkowej y daje R^2=1-RSS/TSS, dalej korzystamy ze zwiazkow
miedzy rozkladami chi-kwadrat a gammma oraz miedzy gamma a beta.
21. Niech dany bedzie waski rozklad X=QR dla modelu lin z zad 20. Podaj algorytm
obliczajacy estymator nieobciazony wariancji y kosztem O(n*p) dzialan arytmetycznych.
22. Udowodnij, ze w modelu lin z zad 20 statystyka F hipotezy lin: A %*% beta = 0 ma rozklad
F(p,n-p-1).
23. Podaj gorne oszacownie postaci 0(a(n,p)) na koszt jednej iteracji algorytmu k-srednich i
algorytmu k-medoidow (analogiczna minimalizacja "odleglosci" innej niz euklid).
____________________________________________________________
20.06.09 godz 12.30. Razem z P. Bieckiem i M. Lisem, ktorzy sprawdzali
egz komp, bedziemy do dyspozycji Panstwa w sr w godz 11.30-16.
18.06.09 godz 9.20. Ocena koncowa z przedmiotu jest zaokraglona srednia
z pozytywnych ocen z egz komp i teor. Egz poprawkowy zdaje sie tylko z tej czesci,
ktorej sie nie zaliczylo w 1szym terminie.
18.06.09 godz 8.00. Wyniki i zasady punktacji egz komp sa w tym samym
katalogu. O konsultacjach poinformuje.
17.06.09 godz 23.15. Wyniki i zasady punktacji egz pis sa w katalogu
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2009
17.06.09 godz 20.30. Spozniam sie wiecej. Zostalo do sprawdzenia 7 prac.
Mam nadzieje, ze skoncze do 21szej a do 22.30 podam wyniki na stronie. Wyniki
egz komp maja byc jutro rano.
17.06.09 godz 16.15. Spozniam sie troche. Mam nadzieje, ze do 20.30 wyniki
beda na stronie.
17.06.09 godz 13.30. Wyniki egz teor beda ok 18tej. Do 19tej powinny byc
na stronie.
8.06.09 godz 12.15. Propozycja nastawiania liczby wezlow warstwy
ukrytej sieci neuronowej.
(i) Nastawilem softmax=T, bo klasyfikuje do wiecej niz dwoch klas
(patrz help). Kryterium softmax to optymalizacja wiarygodnosci danych
w modelu bardzo bliskim dyskryminacji logistycznej.
Zaklada sie, ze log(p[k|x]) = f(k,W,x), gdzie k=1,...,K oznacza klase,
x - obserwacje, W - wagi (parametry) sieci oraz f jest funkcja klasyfikacyjna
sieci neuronowej (na wykladzie oznaczalem ja "y z daszkiem").
Regula klasyfikacyjna jest postaci d(x) = argmax_k f(k,W,x).
(ii) Latwo zauwazyc, ze siec neuronowa z kryterium softmax ma
(p+1+K)*size + K parametrow, gdzie p jest wymiarem wektora x oraz size oznacza
liczbe wezlow warstwy ukrytej. Proponuje nastawiac size tak, aby liczba
parametrow sieci byla rowna liczbie obserwacji: size = ceiling( (n-K)/(p+1+K) ).
Wiele metod nieparametrycznych (np estymator jadrowy gestosci) ma liczbe
parametrow proporcjonalna do liczby obserwacji.
8.06.09 godz 7.50. Uzupelnienie listy zadan na egz z teorii.
Na egz z teorii bedzie 5 zadan - 4 wybiore z ponizszej listy. Nie wszystkie
zadania sa precyzyjnie sformulowane. Te, ktore sa - moga byc troszeczke
zmienione.
1. Za pomoca rozkladu spektralnego var(X) podaj wzor na drugi kierunek
glowny i druga skladowa glowna X. Z definicji 1szy kierunek glowny, to unormowany
wektor t maksymalizujacy var(t'X), a 2gi kierunek glowny, to unormowany wektor w
ortogonalny do t maksymalizujacy var(w'X).
2. Podaj najwazniejsze wlasnosci korelacji, entropii, odleglosci
Kullbacka-Leiblera lub wspolnej informacji (wzory, relacje wzajemne, zakres).
3. Udowodnij rozklad macierzy kowariancji dla modelu
liniowego: var(y) = var(y-y_pred) + var(y_pred).
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca o wartosciach w przedziale [0,1].
Separowalnosc dla metody k-srednich liczy sie nastepujaco. Dla macierzy
danych X mamy rozklad: (*) tr(cov(X)) = tr(cov(W)) + tr(cov(B)).
Lewa strona (*) nie zalezy od podzialu ani od liczby klastrow. Alg. k-srednich
minimalizuje tr(cov(W)) po podzialach na k czesci. Jego wynik oznaczany
dalej w_k zalezy tylko od k. Z (*) wynika, ze t = w_k + b_k.
Separowalnosc to z def sep(k) = b_k/t = 1 - w_k/t, k=1,...,nrow(X).
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA,
oraz z regresji logistycznej. Podaj kryterium optymalizacyjne
dla wyznaczania parametrow. Podaj liczbe parametrow kazdej
metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i regresji logistycznej f sa liniowe od x,
dla QDA mamy f-cje kwadratowa.
8. Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta
(z zadania najmniejszych kwadratow oraz z zadania nieobciazonej estymacji lin
o minimalnej wariancji) oraz estymator nieobciazony wariancji S2.
Podaj, przy zalozeniu normalnosci bledow (epsilon), rozklad b oraz S2.
Udowodnij, ze b i S2 sa niezalezne.
9. Niech H bedzie macierza kapeluszowa (hat matrix) dla X takiego,
ze 1 nalezy do przestrzeni lin rozpietej przez kolumny X.
Udowodnij, ze:
(i) 1/n <= H[i,i] <=1;
(ii) sum(diag(H)) = p;
(iii) H[i,i] = cor(y[i],yPred[i])^2.
10. Niech (X,Y) ma 2-wym rozklad normalny z wektorem srednich (mX,mY),
wariancjami rozkladow brzegowych s2X i s2Y oraz wspolczynnikiem korelacji ro.
Podaj wzor na wspolna informacje zawarta w X i Y.
11. Niech X bedzie wielowymiarowym wektorem los, EX=0 oraz
a[1],...,a[k] jest ukladem ortonorm. Udowodnij, ze minimum
E || X - (a[1]'X*a[1]+...+a[k]'X*a[k]) ||^2 jest osiaganie dla
pierwszych k-kierunkow glownych.
12. Wyprowadz wzory na estymatory najwiekszej wiarygodnosci
dla parametrow wielowymiarowego rozkladu normalnego.
13. Udowodnij, ze rozklad rownomierny (p[i]=1/n) maksymalizuje
entropie wsrod wszystkich rozkladow na 1,...,n.
14. Niech X bedzie macierza danych, C podzialem obserwacji na k-czesci.
Udowodnij, ze T = W_C + B_C, gdzie T, W_C i B_C sa odpowiednio macierza
calkowitej kowariancji X, macierza kowariancji wewnatrz grup i macierza kowariancji
pomiedzy grupami.
15. Wyprowadz ze wzoru na test ilorazu wiarygodnosci wzor na statystyke
testowa F dla hipotezy liniowej
Hip: beta[q+1]=...=beta[p]=0
w modelu liniowym y = X %*% c(beta[1],...,beta[p]) + epsilon.
16. Wyprowdz wzory analizy odpowiedniosci wg Farawaya. Z macierzy czestosci
wspolwystepowania dwoch cech P liczymy macierz residuow Pearsonowkich Q=(P-PP)/sqrt(PP).
Nastepnie wykonujemy SVD dla Q, obcinamy rozwiniecie do dwoch pierwszych wyrazow
i skalujemy wektory szczegolne tak, aby q[i,j] ~ t(c(u1,u2)) %*% c(v1,v2) = : t(u) %*% v.
Wektory u, v mozna reprezentowac na plaszczyznie a ich wzajemne polozenie pozwala
zinterpretowac zaleznosci. Polecam
http://www.mimuw.edu.pl/~pokar/StatystykaII/correspondence/corresp.r
17. Udowodnij, ze pierwsze k-kierunki glowne tworza rzut ortogonalny
macierzy danych, ktory minimalizuje roznice miedzy suma oryginalnych i zrzutowanych
kwadratow odleglosci euklidesowych.
18. Podaj wzor na macierz k-glownych skladowych wykorzystujac rozklad SVD
( SVD pozwala liczyc skladowe glowne bez wykonywania rozkladu spektralnego var(X) ).
19. (a) Podaj algorytm na etymator bledu predykcji metoda kroswalidacji k-krotnej.
(b) Na przykladzie modelu liniowego Uzasadnij, ze warto estymowac parametry metody predykcji
(trenowac) i estymowac jej blad predykcji (w skryptach mean(ppp)) na innych zbiorach danych.
____________________________________________________________
7.06.09 godz 12.45. Bede jutro w pracy od ok 11.30 do 20tej.
Zapraszam na konsultacje do p. 4210.
7.06.09 godz 11.15. Przypominam, ze egz pis z teorii i egz komp traktowane sa
jako dwa oddzielne egzaminy. Oba trzeba zaliczyc niezaleznie. Jesli w czerwcowej sesji
student zaliczy jeden egzamin, a drugiego nie, wowczas w sesji wrzesniowej, aby zaliczyc
przedmiot musi zdac tylko ten jeden niezdany egzamin.
3.06.09 godz 10.40. Na egz z teorii bedzie 5 zadan - 4 wybiore
z ponizszej listy, ktora nie bedzie liczyc wiecej niz 20 pozycji (na razie jest niekompletna)
Nie wszystkie zadania sa precyzyjnie sformulowane. Te, ktore sa - moga byc troszeczke
zmienione.
1. PCA: wyprowadz wzor na pierwszy kierunek glowny i pierwsza skladowa glowna.
2. Podaj najwazniejsze wlasnosci korelacji, odleglosci Kullbacka-Leiblera
lub wspolnej informacji.
3. Udowodnij rozklad macierzy kowariancji dla modelu
liniowego: var(y) = var(y-y_pred) + var(y_pred).
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca o wartosciach w przedziale [0,1].
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA,
oraz z regresji logistycznej. Podaj kryterium optymalizacyjne
dla wyznaczania parametrow. Podaj liczbe parametrow kazdej
metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i regresji logistycznej f sa liniowe od x,
dla QDA mamy f-cje kwadratowa.
8. Wyprowadz wzor na estymator b wspolczynnikow modelu lin beta
oraz estymator wariancji S2. Podaj, przy zalozeniu normalnosci bledow (epsilon),
rozklad b oraz S2. Udowodnij, ze b i S2 sa niezalezne.
9. Niech H bedzie macierza kapeluszowa (hat matrix) dla X takiego,
ze 1 nalezy do przestrzeni lin rozpietej przez kolumny X.
Udowodnij, ze:
(i) 1/n <= H[i,i] <=1;
(ii) sum(diag(H)) = p;
(iii) H[i,i] = cor(y[i],yPred[i])^2.
10. Niech (X,Y) ma 2-wym rozklad normalny z wektorem srednich (mX,mY),
wariancjami rozkladow brzegowych s2X i s2Y oraz wspolczynnikiem korelacji ro.
Podaj wzor na wspolna informacje zawarta w X i Y.
____________________________________________________________