14.09.10 godz 14.40. Wstawilem oceny i zatwierdzilem protokol. Pozytywna ocena koncowa jest zaokraglona w gore
srednia z ocen z egz pis i komp. "NK" dostaly osoby, ktore na zadnym egz nie oddaly rozwiazan.
____________________________________________________________________
9.09.10 godz 13.40. W katalogu http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/terminII/
sa wyniki egz komp. Reklamacje prosze zglaszac emalka Panu Michalowi Lisowi. Prace pisemne sprawdzam.
____________________________________________________________________
6.09.10 godz 14.15. Na egz pis planuje 5 zad, w tym 3-4 zad zamierzam wybrac
z podanej ponizej (7.06.10) listy. Jedno zad bedzie wariantem nastepujacego:
wyprowadz wzory na wspolczynniki regresji logistycznej y na podstawie jednowymiarowego, binarnego x.
_____________________________________________________________________
17.06.10 godz 19.30. Wstawilem oceny do USOSa. W pn zamierzam zatwierdzic
protokol. Jesli ktos zamierza reklamowac ocene, to prosze dac znac emalka.
17.06.10 godz 11.40. Wyniki egz pis sa w
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/EgzPis2010.1.txt
Zaraz bedzie opis punktacji. Bede na wydziale od 13tej do wieczora. Zapraszam.
16.06.10 godz 22.30. Przepraszam, nie zdaze z wynikami do polnocy. Beda
jutro przed poludniem. Od poludnia zapraszam na reklamacje i wystawienie ocen.
15.06.10 godz 20.15. W katalogu
http://www.mimuw.edu.pl/~pokar/StatystykaII/EGZAMINY/2010/
sa wyniki i opis egz komp. Poniewaz tylko dwie osoby dostaly punkty za
p-wartosc testu ilorazu wiarygodnosci w modelu logistycznym, wiec to zadanie
potraktowalem jako dodatkowe, nie wplywajace na zaliczenie.
A nalezalo zrobic - np dla danych X=na.omit(urine)
d1=glm(r~.,data=X,family=binomial)$dev
d0=glm(r~.,data=X[,1:5],family=binomial)$dev
1-pchisq(d0-d1,2) #1E-5
Wyniki egz pisemnego beda jutro.
_____________________________________________________________________
9.06.10 godz 14.45. W zad 8 powinno byc:
"Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta
(z zadania najmniejszych kwadratow oraz z zasady najwiekszej wiarygodnosci)..."
8.06.10 godz 20.10. Bardzo Panstwa przepraszam -- nie moge spotkac sie
z Panstwem jutro rano. Ide z dzieckiem do lekarza. Bede w pracy od ok 14tej do poznego wieczora.
Zapraszam.
______________________________________________________________________
7.06.10 godz 12.00. Ocena koncowa z przedmiotu jest zaokraglona srednia
z pozytywnych ocen z egz komp i teor. Egz poprawkowy zdaje sie tylko z tej czesci,
ktorej sie nie zaliczylo w 1szym terminie.
Na egz teor wybiore 5 - 6 zadan (byc moze troszeczke zmodyfikowanych)
z ponizszej listy.
1. Za pomoca rozkladu spektralnego var(X) podaj wzor na drugi kierunek
glowny i druga skladowa glowna X. Z definicji 1szy kierunek glowny, to unormowany
wektor t maksymalizujacy var(t'X), a 2gi kierunek glowny, to unormowany wektor w
ortogonalny do t maksymalizujacy var(w'X).
2. Podaj najwazniejsze wlasnosci korelacji, entropii, odleglosci
Kullbacka-Leiblera lub wspolnej informacji (wzory, relacje wzajemne, zakres).
3. Udowodnij rozklad macierzy kowariancji dla modelu
liniowego: var(y) = var(y-y_pred) + var(y_pred).
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca o wartosciach w przedziale [0,1].
Separowalnosc dla metody k-srednich liczy sie nastepujaco. Dla macierzy
danych X mamy rozklad: (*) tr(cov(X)) = tr(cov(W)) + tr(cov(B)).
Lewa strona (*) nie zalezy od podzialu ani od liczby klastrow. Alg. k-srednich
minimalizuje tr(cov(W)) po podzialach na k czesci. Jego wynik oznaczany
dalej w_k zalezy tylko od k. Z (*) wynika, ze t = w_k + b_k.
Separowalnosc to z def sep(k) = b_k/t = 1 - w_k/t, k=1,...,nrow(X).
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA,
oraz z regresji logistycznej. Podaj kryterium optymalizacyjne
dla wyznaczania parametrow. Podaj liczbe parametrow kazdej
metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i regresji logistycznej f sa liniowe od x,
dla QDA mamy f-cje kwadratowa.
8. Wyprowadz wzory na estymator b wspolczynnikow modelu lin beta
(z zadania najmniejszych kwadratow oraz z zasady najwiekszej wiarygodnosci)
oraz estymator nieobciazony wariancji S2.
Podaj, przy zalozeniu normalnosci bledow (epsilon), rozklad b oraz S2.
Udowodnij, ze b i S2 sa niezalezne.
9. Niech H bedzie macierza kapeluszowa (hat matrix) dla X takiego,
ze 1 nalezy do przestrzeni lin rozpietej przez kolumny X.
Udowodnij, ze:
(i) 1/n <= H[i,i] <=1;
(ii) sum(diag(H)) = p;
(iii) H[i,i] = cor(y[i],yPred[i])^2.
10. Niech (X,Y) ma 2-wym rozklad normalny z wektorem srednich (mX,mY),
wariancjami rozkladow brzegowych s2X i s2Y oraz wspolczynnikiem korelacji ro.
Podaj wzor na wspolna informacje zawarta w X i Y.
11. Niech X bedzie wielowymiarowym wektorem los, EX=0 oraz
a[1],...,a[k] jest ukladem ortonorm. Udowodnij, ze minimum
E || X - (a[1]'X*a[1]+...+a[k]'X*a[k]) ||^2 jest osiaganie dla
pierwszych k-kierunkow glownych.
12. Wyprowadz wzory na estymatory najwiekszej wiarygodnosci
dla parametrow wielowymiarowego rozkladu normalnego.
13. Udowodnij, ze rozklad rownomierny (p[i]=1/n) maksymalizuje
entropie wsrod wszystkich rozkladow na 1,...,n.
14. Niech X bedzie macierza danych, C podzialem obserwacji na k-czesci.
Udowodnij, ze T = W_C + B_C, gdzie T, W_C i B_C sa odpowiednio macierza
calkowitej kowariancji X, macierza kowariancji wewnatrz grup i macierza kowariancji
pomiedzy grupami.
15. Wyprowadz ze wzoru na test ilorazu wiarygodnosci wzor na statystyke
testowa F dla hipotezy liniowej
Hip: beta[q+1]=...=beta[p]=0
w modelu liniowym y = X %*% c(beta[1],...,beta[p]) + epsilon.
16. Udowodnij, ze pierwsze k-kierunki glowne tworza rzut ortogonalny
macierzy danych, ktory minimalizuje roznice miedzy suma oryginalnych i zrzutowanych
kwadratow odleglosci euklidesowych.
17. Podaj wzor na macierz k-glownych skladowych wykorzystujac rozklad SVD
( SVD pozwala liczyc skladowe glowne bez wykonywania rozkladu spektralnego var(X) ).
18. (a) Podaj algorytm na etymator bledu predykcji metoda kroswalidacji k-krotnej.
(b) Na przykladzie modelu liniowego Uzasadnij, ze warto estymowac parametry metody predykcji
(trenowac) i estymowac jej blad predykcji (w skryptach mean(ppp)) na innych zbiorach danych.
19. Niech R^2 bedzie wspolczynnikiem dopasowania (kwadrat korelacji probkowej cor(y,y_pred))
w modelu liniowym y = X %*% beta + epsilon, gdzie epsilon ~ N(0,si2), X - macierz nx(p+1), n>p, rank(X)=p+1 oraz X[,1]=1.
Udowodnij, ze:
(i) test R^2 >c jest rownowazny testowi ilorazu wiarygodnosci;
(ii) R^2 ma rozklad beta(p/2,(n-p-1)/2).
Wskazowka do (ii): rozklad wariancji probkowej y daje R^2=1-RSS/TSS, dalej korzystamy ze zwiazkow
miedzy rozkladami chi-kwadrat a gammma oraz miedzy gamma a beta.
20. Niech dany bedzie waski rozklad X=QR dla modelu lin z zad 19. Podaj algorytm
obliczajacy estymator nieobciazony wariancji y kosztem O(n*p) dzialan arytmetycznych.
21. Udowodnij, ze w modelu lin z zad 20 statystyka F hipotezy lin: A %*% beta = 0 ma rozklad
F(p,n-p-1).
22. Podaj gorne oszacownie postaci 0(a(n,p)) na koszt jednej iteracji algorytmu k-srednich i
algorytmu k-medoidow (analogiczna minimalizacja "odleglosci" innej niz euklid).
23. Udowodnij Stw 1. lub Stw 2. z
http://www.mimuw.edu.pl/~pokar/StatystykaII/KSIAZKI/pokarHabModelSelect.pdf
____________________________________________________________