9.09.13 godz 13.15. W tym samym katalogu jest opis punktacji.

9.09.13 godz 12.50. Wyniki sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2013/Egz2013.12wynik.txt
Zaraz opisze punktacje. zapraszam na konsultacje do 18.30.

9.09.13 godz 9.00. Sprawdzam. Skoncze do 12tej.

_________________________________________________________________

5.07.13 godz 14.30. Wstawilem pozytywne oceny do USOSa.

3.07.13 godz 10.30. Przekonal mnie p. Lukasz Iwinski, ze anova.glm(m1,m2, test="Chisq") liczy faktycznie test ilorazu wiarygodnosci LRT, a nie test Chi-kwadrat Pearsona, jak sugeruje nazwa. Wobec tego podnosze o 2 punkty wyniki dla zad 2. wielu studentom.

1.07.13 godz 19.40. Podalem zasady punktacji na egz komp i uzupelniam, na biezaco, wyniki. Wszystko jest w:
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2013/

Na konsultacje lub reklamacje zapraszam w sr w godz 9-12 osobiscie lub na tel. 22 55 44 421. Bede pewnie w pracy rowniez w czw i pt. Oceny wpisze w pt.

1.07.13 godz 13.00. Przepraszam jeszcze raz za spoznienie. Wyniki i opis punktacji dla egz pisemnego sa w:
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2013/
Do wieczora sprawdze komputerowy.

26.06.13. przepraszam, ze sie spozniam. Do pojutrza sprawdze.

__________________________________________________________________

13.06.13 godz 14.00. Do ponizszej listy zagadnien chcialbym dodac 2 uzupelnienia.

1. Do zad. 12. W podanym przeze mnie wyprowadzeniu MLE dla macierzy kowariancji Sigma jest luka: nie ma jednoznacznosci maks. wiarygodnosci w nI. Jednoznacznosc wynika z dwoch faktow:
(i) B = S %*% Sigma^(-1) jest diagonalizowalna, bo jest podobna do macierzy symetrycznej Sigma^(-1/2) %*% S %*% Sigma(-1/2).
(ii) B = A %*% nI %*% A^(-1) dla pewnej odwracalnej A.
2. Na ostatnich zajeciach podalem wzor na hat_beta z ograniczeniami A %*% hat_beta = c, ale nie dokonczylem dowodu, ze odpowiednia statystyka F ma rozklad F-Snedecora. Jest to uogolnienie tw ze skryptu, bo tam c=0. Trzeba dokonczyc dowod!

13.06.13 godz 10.30. Dzien dobry Panstwu, dzisiaj do 14tej przejrze i uzupelnie ponizsza liste zadan.

____________________________________________________________________

Na egz pis z teorii planuje 5 - 6 zadan podobnych do ponizszych.

1. Za pomoca rozkladu spektralnego var(X) podaj wzor na drugi kierunek glowny i druga skladowa glowna X. Z definicji 1szy kierunek glowny, to unormowany wektor t maksymalizujacy var(t'X), a 2gi kierunek glowny, to unormowany wektor w ortogonalny do t maksymalizujacy var(w'X).

2. Podaj najwazniejsze wlasnosci korelacji, entropii, odleglosci Kullbacka-Leiblera lub wspolnej informacji (wzory, relacje wzajemne, zakres).

3. Udowodnij rozklad macierzy kowariancji dla modelu liniowego: var(y) = var(y-y_pred) + var(y_pred).

4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k) jest funkcja niemalejaca o wartosciach w przedziale [0,1]. Separowalnosc dla metody k-srednich liczy sie nastepujaco. Dla macierzy danych X mamy rozklad: (*) tr(cov(X)) = tr(cov(W)) + tr(cov(B)). Lewa strona (*) nie zalezy od podzialu ani od liczby klastrow. Alg. k-srednich minimalizuje tr(cov(W)) po podzialach na k czesci. Jego wynik oznaczany dalej w_k zalezy tylko od k. Z (*) wynika, ze t = w_k + b_k. Separowalnosc to z def sep(k) = b_k/t = 1 - w_k/t, k=1,...,nrow(X).

5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".

6. Podaj wzor na optymalna regule decyzyjna z funkcja straty 1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.

7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA. Podaj liczbe parametrow kazdej metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x), gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami klasyfikacyjnymi. Dla LDA i regresji logistycznej f sa liniowe od x, dla QDA mamy f-cje kwadratowa.

8. Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta (z zadania najmniejszych kwadratow oraz z zasady najwiekszej wiarygodnosci) oraz estymator nieobciazony wariancji S2. Podaj, przy zalozeniu normalnosci bledow (epsilon), rozklad b oraz S2. Udowodnij, ze b i S2 sa niezalezne.

9. Niech H bedzie macierza kapeluszowa (hat matrix) dla X takiego, ze 1 nalezy do przestrzeni lin rozpietej przez kolumny X. Udowodnij, ze:
(i) 1/n <= H[i,i] <=1;
(ii) sum(diag(H)) = p;
(iii) H[i,i] = cor(y[i],yPred[i])^2.

10. Niech (X,Y) ma 2-wym rozklad normalny z wektorem srednich (mX,mY), wariancjami rozkladow brzegowych s2X i s2Y oraz wspolczynnikiem korelacji ro. Podaj wzor na wspolna informacje zawarta w X i Y.

11. Niech X bedzie wielowymiarowym wektorem los, EX=0 oraz a[1],...,a[k] jest ukladem ortonorm. Udowodnij, ze minimum E || X - (a[1]'X*a[1]+...+a[k]'X*a[k]) ||^2 jest osiaganie dla pierwszych k-kierunkow glownych.

12. Wyprowadz wzory na estymatory najwiekszej wiarygodnosci dla parametrow wielowymiarowego rozkladu normalnego.

13. Udowodnij, ze rozklad rownomierny (p[i]=1/n) maksymalizuje entropie wsrod wszystkich rozkladow na 1,...,n.

14. Niech X bedzie macierza danych, C podzialem obserwacji na k-czesci. Udowodnij, ze T = W_C + B_C, gdzie T, W_C i B_C sa odpowiednio macierza calkowitej kowariancji X, macierza kowariancji wewnatrz grup i macierza kowariancji pomiedzy grupami.

15. Wyprowadz ze wzoru na test ilorazu wiarygodnosci wzor na statystyke testowa F dla hipotezy liniowej
Hip: beta[q+1]=...=beta[p]=0
w modelu liniowym y = X %*% c(beta[1],...,beta[p]) + epsilon.

16. Udowodnij, ze pierwsze k-kierunki glowne tworza rzut ortogonalny macierzy danych, ktory minimalizuje roznice miedzy suma oryginalnych i zrzutowanych kwadratow odleglosci euklidesowych.

17. Podaj wzor na macierz k-glownych skladowych wykorzystujac rozklad SVD ( SVD pozwala liczyc skladowe glowne bez wykonywania rozkladu spektralnego var(X) ).

18. (a) Podaj algorytm na etymator bledu predykcji metoda kroswalidacji k-krotnej. (b) Na przykladzie modelu liniowego Uzasadnij, ze warto estymowac parametry metody predykcji (trenowac) i estymowac jej blad predykcji (w skryptach mean(ppp)) na innych zbiorach danych.

19. Niech R^2 bedzie wspolczynnikiem dopasowania (kwadrat korelacji probkowej cor(y,y_pred)) w modelu liniowym y = X %*% beta + epsilon, gdzie epsilon ~ N(0,si2), X - macierz nx(p+1), n>p, rank(X)=p+1 oraz X[,1]=1. Udowodnij, ze:
(i) test R^2 >c jest rownowazny testowi ilorazu wiarygodnosci;
(ii) R^2 ma rozklad beta(p/2,(n-p-1)/2).
Wskazowka do (ii): rozklad wariancji probkowej y daje R^2=1-RSS/TSS, dalej korzystamy ze zwiazkow miedzy rozkladami chi-kwadrat a gammma oraz miedzy gamma a beta.

20. Niech dany bedzie waski rozklad X=QR dla modelu lin z zad 19. Podaj algorytm obliczajacy estymator nieobciazony wariancji y kosztem O(n*p) dzialan arytmetycznych.

21. Udowodnij, ze w modelu lin z zad 20 statystyka F hipotezy lin: A %*% beta = 0 ma rozklad F(p,n-p-1).

22. Podaj gorne oszacownie postaci 0(a(n,p)) na koszt jednej iteracji algorytmu k-srednich i algorytmu k-medoidow (analogiczna minimalizacja "odleglosci" innej niz euklid).

23. Udowodnij Stw 1. lub Stw 2. z
http://www.mimuw.edu.pl/~pokar/StatystykaII/KSIAZKI/pokarHabModelSelect.pdf

24. Wyprowadz wzory na wspolczynniki regresji logistycznej y na podstawie jednowymiarowego, binarnego x.

____________________________________________________________