9.09.13 godz 13.15. W tym samym katalogu jest opis punktacji.
9.09.13 godz 12.50. Wyniki sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2013/Egz2013.12wynik.txt
Zaraz opisze punktacje. zapraszam na konsultacje do 18.30.
9.09.13 godz 9.00. Sprawdzam. Skoncze do 12tej.
_________________________________________________________________
5.07.13 godz 14.30. Wstawilem pozytywne oceny do USOSa.
3.07.13 godz 10.30. Przekonal mnie p. Lukasz Iwinski, ze anova.glm(m1,m2, test="Chisq") liczy
faktycznie test ilorazu wiarygodnosci LRT, a nie test Chi-kwadrat Pearsona, jak sugeruje nazwa. Wobec
tego podnosze o 2 punkty wyniki dla zad 2. wielu studentom.
1.07.13 godz 19.40. Podalem zasady punktacji na egz komp i uzupelniam, na biezaco, wyniki. Wszystko
jest w:
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2013/
Na konsultacje lub reklamacje zapraszam w sr w godz 9-12 osobiscie lub na tel. 22 55 44 421.
Bede pewnie w pracy rowniez w czw i pt. Oceny wpisze w pt.
1.07.13 godz 13.00. Przepraszam jeszcze raz za spoznienie. Wyniki i opis punktacji
dla egz pisemnego sa w:
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2013/
Do wieczora sprawdze komputerowy.
26.06.13. przepraszam, ze sie spozniam. Do pojutrza sprawdze.
__________________________________________________________________
13.06.13 godz 14.00. Do ponizszej listy zagadnien chcialbym dodac 2
uzupelnienia.
1. Do zad. 12. W podanym przeze mnie wyprowadzeniu MLE dla macierzy
kowariancji Sigma jest luka: nie ma jednoznacznosci maks. wiarygodnosci w nI.
Jednoznacznosc wynika z dwoch faktow:
(i) B = S %*% Sigma^(-1) jest diagonalizowalna, bo jest podobna do
macierzy symetrycznej Sigma^(-1/2) %*% S %*% Sigma(-1/2).
(ii) B = A %*% nI %*% A^(-1) dla pewnej odwracalnej A.
2. Na ostatnich zajeciach podalem wzor na hat_beta z ograniczeniami
A %*% hat_beta = c, ale nie dokonczylem dowodu, ze odpowiednia statystyka F
ma rozklad F-Snedecora. Jest to uogolnienie tw ze skryptu, bo tam c=0.
Trzeba dokonczyc dowod!
13.06.13 godz 10.30. Dzien dobry Panstwu, dzisiaj do 14tej przejrze i uzupelnie ponizsza liste zadan.
____________________________________________________________________
Na egz pis z teorii planuje 5 - 6 zadan podobnych do ponizszych.
1. Za pomoca rozkladu spektralnego var(X) podaj wzor na drugi kierunek
glowny i druga skladowa glowna X. Z definicji 1szy kierunek glowny, to unormowany
wektor t maksymalizujacy var(t'X), a 2gi kierunek glowny, to unormowany wektor w
ortogonalny do t maksymalizujacy var(w'X).
2. Podaj najwazniejsze wlasnosci korelacji, entropii, odleglosci
Kullbacka-Leiblera lub wspolnej informacji (wzory, relacje wzajemne, zakres).
3. Udowodnij rozklad macierzy kowariancji dla modelu
liniowego: var(y) = var(y-y_pred) + var(y_pred).
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca o wartosciach w przedziale [0,1].
Separowalnosc dla metody k-srednich liczy sie nastepujaco. Dla macierzy
danych X mamy rozklad: (*) tr(cov(X)) = tr(cov(W)) + tr(cov(B)).
Lewa strona (*) nie zalezy od podzialu ani od liczby klastrow. Alg. k-srednich
minimalizuje tr(cov(W)) po podzialach na k czesci. Jego wynik oznaczany
dalej w_k zalezy tylko od k. Z (*) wynika, ze t = w_k + b_k.
Separowalnosc to z def sep(k) = b_k/t = 1 - w_k/t, k=1,...,nrow(X).
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA.
Podaj liczbe parametrow kazdej
metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i regresji logistycznej f sa liniowe od x,
dla QDA mamy f-cje kwadratowa.
8.
Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta
(z zadania najmniejszych kwadratow oraz z zasady najwiekszej wiarygodnosci)
oraz estymator nieobciazony wariancji S2.
Podaj, przy zalozeniu normalnosci bledow (epsilon), rozklad b oraz S2.
Udowodnij, ze b i S2 sa niezalezne.
9. Niech H bedzie macierza kapeluszowa (hat matrix) dla X takiego,
ze 1 nalezy do przestrzeni lin rozpietej przez kolumny X.
Udowodnij, ze:
(i) 1/n <= H[i,i] <=1;
(ii) sum(diag(H)) = p;
(iii) H[i,i] = cor(y[i],yPred[i])^2.
10. Niech (X,Y) ma 2-wym rozklad normalny z wektorem srednich (mX,mY),
wariancjami rozkladow brzegowych s2X i s2Y oraz wspolczynnikiem korelacji ro.
Podaj wzor na wspolna informacje zawarta w X i Y.
11. Niech X bedzie wielowymiarowym wektorem los, EX=0 oraz
a[1],...,a[k] jest ukladem ortonorm. Udowodnij, ze minimum
E || X - (a[1]'X*a[1]+...+a[k]'X*a[k]) ||^2 jest osiaganie dla
pierwszych k-kierunkow glownych.
12. Wyprowadz wzory na estymatory najwiekszej wiarygodnosci
dla parametrow wielowymiarowego rozkladu normalnego.
13. Udowodnij, ze rozklad rownomierny (p[i]=1/n) maksymalizuje
entropie wsrod wszystkich rozkladow na 1,...,n.
14. Niech X bedzie macierza danych, C podzialem obserwacji na k-czesci.
Udowodnij, ze T = W_C + B_C, gdzie T, W_C i B_C sa odpowiednio macierza
calkowitej kowariancji X, macierza kowariancji wewnatrz grup i macierza kowariancji
pomiedzy grupami.
15. Wyprowadz ze wzoru na test ilorazu wiarygodnosci wzor na statystyke
testowa F dla hipotezy liniowej
Hip: beta[q+1]=...=beta[p]=0
w modelu liniowym y = X %*% c(beta[1],...,beta[p]) + epsilon.
16. Udowodnij, ze pierwsze k-kierunki glowne tworza rzut ortogonalny
macierzy danych, ktory minimalizuje roznice miedzy suma oryginalnych i zrzutowanych
kwadratow odleglosci euklidesowych.
17. Podaj wzor na macierz k-glownych skladowych wykorzystujac rozklad SVD
( SVD pozwala liczyc skladowe glowne bez wykonywania rozkladu spektralnego var(X) ).
18. (a) Podaj algorytm na etymator bledu predykcji metoda kroswalidacji k-krotnej.
(b) Na przykladzie modelu liniowego Uzasadnij, ze warto estymowac parametry metody predykcji
(trenowac) i estymowac jej blad predykcji (w skryptach mean(ppp)) na innych zbiorach danych.
19. Niech R^2 bedzie wspolczynnikiem dopasowania (kwadrat korelacji probkowej cor(y,y_pred))
w modelu liniowym y = X %*% beta + epsilon, gdzie epsilon ~ N(0,si2), X - macierz nx(p+1), n>p, rank(X)=p+1 oraz X[,1]=1.
Udowodnij, ze:
(i) test R^2 >c jest rownowazny testowi ilorazu wiarygodnosci;
(ii) R^2 ma rozklad beta(p/2,(n-p-1)/2).
Wskazowka do (ii): rozklad wariancji probkowej y daje R^2=1-RSS/TSS, dalej korzystamy ze zwiazkow
miedzy rozkladami chi-kwadrat a gammma oraz miedzy gamma a beta.
20. Niech dany bedzie waski rozklad X=QR dla modelu lin z zad 19. Podaj algorytm
obliczajacy estymator nieobciazony wariancji y kosztem O(n*p) dzialan arytmetycznych.
21. Udowodnij, ze w modelu lin z zad 20 statystyka F hipotezy lin: A %*% beta = 0 ma rozklad
F(p,n-p-1).
22. Podaj gorne oszacownie postaci 0(a(n,p)) na koszt jednej iteracji algorytmu k-srednich i
algorytmu k-medoidow (analogiczna minimalizacja "odleglosci" innej niz euklid).
23. Udowodnij Stw 1. lub Stw 2. z
http://www.mimuw.edu.pl/~pokar/StatystykaII/KSIAZKI/pokarHabModelSelect.pdf
24. Wyprowadz wzory na wspolczynniki regresji logistycznej y na podstawie jednowymiarowego,
binarnego x.
____________________________________________________________