piatek, 21.09 godz 15.00. Na prosbe Pana Dziekana, zapraszam na dodatkowy
egz komp Panow P.Macieja i W.Jerzego oraz na egz pis Panow N.Grzegorza i W.Jana.
Oba egz chcialbym przeprowadzic we wt 2.10. o godz 12tej.
czwartek, 20.09 godz 15.30. Po konsultacji z p Niemiro zauwazylem, ze
N. Grzegorz i W.Jan zaliczyli jeden egzamin, a do zaliczenia drugiego zabraklo
im epsilona, czyli 0.5 punkta. Gotow jestem "dopytac" Panow 1-2 pazdziernika.
Prosze, skontaktujcie sie Panowie z p Niemiro i obejrzyjcie swoje prace.
czwartek, 20.09 godz 10.30. Jesli k jest ocena z czesci komp oraz t ocena
z czesci pis (teoretycznej), to ocene koncowa licze formulka:
OK = function(k,t) {
if (min(k,t)<3) OK = 2
else if (abs(k-t)== 0.5) OK = k
else if (abs(k-t)== 1.5) OK = k + sign(t-k)/2
else OK = (k+t)/2
OK
}
sroda, 19.09 godz 23.15. W pliku EgzKomp040907punktacja.txt jest tabela ze
zdobytymi punktami za kazde zadanie. Okazalo sie, ze byly jeszcze bledy w punktacji:
Paniom S.Annie i W.Annie zanizylem poprzednio ocene! Przepraszam. W sprawie
ocen konkretnych zadan prosze dzwonic dzis/jutro przez skype'a na pokaronskype
(u mnie jest 7 godzin wczesniej).
sroda, 19.09 godz 22.30. W pliku EgzKomp040907punktacja.pdf. jest opis
punktacji na egz komp. Za 0.5-1 godz podam tabele ze zdobytymi punktami za kazde
zad.
sroda, 19.09 godz 20.50. Poprawilem bledy w sprawdzeniu egz komp. Za
2 godz opisze punktacje na tym egz. Prosze pamietac, ze niektore
oceny na liscie pochodza z egz czerwcowego, na ktorym byla inna punktacja!
Ponadto dopytywalem specjalnie osoby, ktore zaliczyly jeden egzamin, a do
zaliczenia drugiego zabraklo im epsilona, czyli 0.5 punkta. Te zasade
chcialbym zachowac, ale pytac bede dopiero w pazdzierniku, po powrocie
do Polski.
sroda, 19.09 godz 19.15. Sprawdzilem egz komp i wystawilem oceny
(Egz050907wyniki.txt). Potrzebuje 1-2 godz, zeby przeczytac wszystkie prace
jeszcze raz i poprawic ew bledy sprawdzenia.
Nastepnie przez 1-2 godz opisze punktacje na egz komp.
sroda, 19.09 godz 13.00. W przerwach miedzy swoimi zajeciami edytuje plik
Egz050907wyniki.txt. Do pustej linii w tym pliku nowe wyniki sa juz wprowadzone.
W dalszej kolejnosci opisze punktacje i wyniki egz komp. Bede czekal do czw
wieczorem na reklamacje emalka lub skype'm (moje login: pokaronskype).
Do nocy z czw na pt wstawie oceny do USOSa.
______________________________________________________________________________
wtorek, 18.09 godz 23.00.
Jutro w godz 10-16 w pokoju 4410 mozecie Panstwo zobaczyc i reklamowac wyniki egz
pis, ktory sprawdzal p Niemiro. W pliku EgzPis050907rozwiazania.pdf sa rozwiazania
i punktacja (za kazdy podpunkt rozwiazania byl jeden punkt). Jutro tez podam wyniki egz komp i oceny koncowe. Bede czekal do czw na
reklamacje i wieczorem czasu polskiego planuje wpisac oceny do USOSa.
______________________________________________________________________________
______________________________________________________________________________
poniedzialek, 2.07 godz 15.10.
Dodatkowy egz pis dla osob, ktore dostaly 4 punkty odbedzie sie w
najblizszy czw o godz 17.00. Spotykamy sie w pokoju 4210.
______________________________________________________________________________
poniedzialek, 2.07 godz 11.50. W pliku Egz200607wyniki.txt sa wyniki obu
egz. Punktacja w egz pis wisi przed drzwiami do p 4210. Jestem dzisiaj na wydziale
do wieczora. Zapraszam Panstwa na konsultacje i po wpisy ocen. Przypominam, ze
osoby, ktore nie zaliczyly dokladnie jednego egzaminu sa zobowiazane zdawac
we wrzesniu tylko ten egzamin. Wszyscy moga zdawac powtornie egzamin, jednak
ocena koncowa bedzie liczona na podstawie najnowszego wyniku. Osoby, ktore
dostaly 4 punkty w egz pis zapraszam na poprawke z tego egz w tym tygodniu.
Proponuje czw lub pt o 17tej -co Panstwo o tym sadzicie?
______________________________________________________________________________
piatek, 29.06 godz 22.30. Uwzglednilem wiele reklamacji dotyczacych
oceny egz pis i zdecydowalem sie przeczytac wszystkie prace jeszcze raz
jutro ok poludnia. Mam nadzieje, ze ok 15tej bede mogl podac ostateczne wyniki.
piatek, 29.06 godz 13.20. Bede w pracy ok 14.15. Wyniki egz pisemnego
i punktacje podam na wydziale.
piatek, 29.06 godz 11.00. Potrzebuje jeszcze ok 2 godz na sprawdzenie
egz pisemnego. Nastepnie podam wyniki+punktacje i jade do pracy.
czwartek, 28.06 godz 21.10. W pliku EgzKomp200607punktacja.doc sa
szczegoly dotyczace punktacji zadan z egzaminu komputerowego.
czwartek, 28.06 godz 18.10. W pliku EgzKomp200607wyniki.txt sa wyniki
egzaminu komputerowego. Za ok 2 godz podam szczegoly punktacji. Wyniki
egz. pis. podam jutro przed poludniem a od ok 13-14tej bede na wydziale
do Panstwa dyspozycji. W przyszlym tyg bede czesto na wydziale (w pn od ok 12tej).
czwartek, 28.06 godz 12.00. Za kilka godzin (przed 18ta) podam wyniki
egz.
sroda, 27.06 godz 22.00. Sprawdzilem ponad polowo w pre prac. Nastepny
komunikat jutro o 12tej.
sroda, 27.06 godz 12.00. Sprawdzilem ok 1/3 prac. Mam nadzieje, ze do
jutra sprawdze wszystkie. Nastepny komunikat o godz. 22giej.
wtorek, 26.06 godz 19.15. Bardzo Panstwa przepraszam za spoznienie.
Dopiero dzisiaj moge sprawdzac Wasze prace. Jutro o 12tej nastepny komunikat.
wtorek, godz. 18.40. POPRAWKI cd.
W opisie egz komp, punkt (v) powinno byc: "Narysowac
estymatory gestosci dwoch pierwszych skladowych glownych w klastrach".
wtorek, godz. 15.30. POPRAWKI.
(i) katalog DANE uzupelnilem o brakujace dane "bodyfat"
analizowane przez Johnsona i spakowalem je razem z artykulem (plik pdf).
(ii) program bodyfat.R w katalogu DANE wykorzystuje funkcje "dropterm" pokazujaca
przyrost AIC po usunieciu kazdej cechy. AIC bylo dotad liczone z domyslnym k=2,
co powodowalo niezgodnosc z wczesniejszym wywolaniem funkcji "stepAIC",
dlatego do dropterm wstawilem k=log(nrow(X)).
(iii) Usunalem ten sam program "bodyfat.R" z archiwum bodyfatBergemann.zip.
____________________________________________________________________
18tego i 19tego czerwca bede do dyspozycji Panstwa
osobiscie lub przez tel 55 44 421 na wydziale w godz 10-22.
____________________________________________________________________
MOJE PLANY EGZAMINACYJNE (pn. godz 19.10)
EGZAMIN KOMPUTEROWY (5-6 zadan)
Ogolny opis zadan - rezerwuje sobie prawo do 20 % niespodzianki
(raczej z programowania w R niz ze statystyki).
1.- 2. Eksploracja.
(i) Wczytac dane.
(ii) Narysowac plaszczyzne dwoch glownych skladowych i
policzyc udzial ich wariancji w calkowitej wariancji danych.
(iii) Sprawdzic za pomoca boxplot.stats i boxplot, czy sa obs odstajace.
(iv) Poklasteryzowac dane.
(v) Narysowac estymatory gestosci dwoch pierwszych skladowych glownych w klastrach.
3. Porownac efektywnosc 2-3 metod klasyfikacji (wg p-stwa popr.
predykcji lub innej miary) klasyfikacji w eksperymencie kroswalidacji.
Przypominam, ze poznali Panstwo: lda, qda, nnet, regresje logistyczna z glm
i regresje wielomianowa z multinom (library(nnet)) oraz drzewa decyzyjne z
pakietu rpart.
,
4. Zbudowac model regresji lin wielu zmiennych. Mozna wykorzystac
moje skrypty samochodyNowe.R i bodyfat.R.
5. Zbudowac model lin dla danych nieliczbowych lub mieszanych.
Wykonac selekcje cech za pomoca stepAIC. Mozna wykorzystac analizy
z cwiczen na danych quine lub immer.
____________________________________________________________________
EGZAMIN PISEMNY (5-6 zadan)
Podaje wiekszy zbior zadan - nie wszystkie sa precyzyjnie sformulowane,
te, ktore sa - moga byc troszke zmienione.
1. PCA (albo LDA): wyprowadz wzor na pierwsza skladowa glowna (zmienna
kanoniczna).
2. Najwazniejsze wlasnosci korelacji, odleglosci Kullbacka-Leiblera
lub wspolnej informacji.
3. Rozklad wariancji lub rozklad macierzy kowariancji dla modelu
liniowego.
4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k)
jest funkcja niemalejaca o wartosciach w przedziale [0,1].
5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".
6. Podaj wzor na optymalna regule decyzyjna z funkcja straty
1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.
7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA,
dyskryminacja logistyczna (LOGISTIC), siecia neuronowa (NN). Podaj kryterium
optymalizacyjne dla wyznaczania parametrow. Podaj liczbe parametrow kazdej
metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x),
gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami
klasyfikacyjnymi. Dla LDA i LOGISTIC f sa liniowe od x, dla QDA mamy
f-cje kwadratowa.
8. Zalozmy, ze S2 jest probkowa wariancja w modelu normalnym
N(0,si^2). Policz rozklad n*S2/si^2.
9. Niech X bedzie macierza danych oraz H = X %*% solve(t(X)%*%X) %*% t(X
Udowodnij, ze (i) 0<= H[i,i] <=1; (ii) H[i,i] = cor(y[i],yPred[i])^2.
____________________________________________________________
UWAGI.
1. Mamy model logitowy logit(p(awaria[i]|x[i])) = t(c(1,x[i]))%*%beta,
i=1,...,n.
W zadaniu regresji logistycznej chodzi o estymacje p(awaria|x),
w dyskryminacji - o interpretacje wspolczynnikow beta, w klasyfikacji
- o decyzje d(x) = ifelse( p(awaria|x)>.5, 1, 0).
2. Roznica miedzy dyskryminacja a klasyfikacja (predykcja do
skon liczby klas) wynika z interpretacji zadania matem. Mowimy o dyskryminacji
irysow, bo celem Fishera byl opis odmian tej rosliny za pomoca prostych
mierzalnych cech. Powiemy o klasyfikacji kobiet Pima, bo dane te moga sluzyc
do budowy taniego testu na obecnosc cukrzycy.
3. Na cwiczeniach na ogol "wkladalismy" do lm wektor y i macierz X.
Jest tak chyba prosciej na poczatku nauki R lub w sytuacji, gdy wszystkie
zmienne sa liczbowe i jest ich duzo. Ogolniej, czyli dla modeli liniowych
mieszanych (cechy liczbowe i nominalne) lub dla regresji logistycznej (glm)
trzeba uzywac formul zawierajacych nazwy zmiennych, ktore sa kolumnami tabeli
(data.frame). Np lm(fat~bmi+tri,data=data.frame(X)). Kiedy zmiennych
wyjasniajacych jest duzo, to taki zapis jest niewygodny, wiec uzywa sie aliasu
(skrotu) ".", ktory w lm lub glm oznacza "wszystkie cechy procz wyjasnianej".
Np m1=lm(Paliwo~.,data=Auta) oznacza regresje zuzycia paliwa za pomoca
pozostalych cech w tabeli Auta (tabela utworzona z danych samochody.dat).
4. Funkcja update sluzy do wygodnego zapisu i rozwiazania modelu
zmodyfikowanego, jesli mamy model wczesniejszy, tutaj m1. Zapis
update(m1,.~.-Szer) oznacza nowa regresje zmiennej Paliwo za pomoca wszystkich
pozostalych cech z wyjatkiem Szer. W zapisie ".~." pierwsza kropka oznacza lewa
strone formuly z m1, druga kropka - prawa strone. Pierwsza kropke mozna pominac,
ale wole tego nie robic! Podobna konwencja obowiazuje w stepAIC.
5. Kryteria informacyjne minimalizowane w procedurach automatycznego
wyboru modelu maja czesto postac:
- logWiarygodnosc + wielkosc_modelu
Pierwszy czlon oznacza blad w dopasowaniu modelu do danych uczacych; drugi
czlon - kare za wielkosc modelu. Popularne sa dwa kryteria:
AIC (Akaike Informacion Criterion) i BIC (Bayes Information Criterion).
AIC = -logWiarygodnosc + 2*p
BIC = -logWiarygodnosc +log(n)*p,
gdzie p - wymiar wektora cech obserwowanych, n - liczba obserwacji.
Widac, ze jedyna roznica miedzy AIC i BIC jest czynnik "k" stojacy przy p.
Dlatego oba kryteria mozna optymalizowac jedna funkcja stepAIC, przestawiajac
ewentualnie k. Domyslnie jest k=2, zgodnie z nazwa funckji.
6. Zauwazacie Panstwo arbitralnosc wyboru koncowego modelu (dla bodyfa
czy samochodow) i zastanawiacie sie, jak bede ocenial! - Chcialbym, zeby
modele byly:
(A) Otrzymane w oparciu o uniwersalne zasady:
(i) Np procedure Bonferroniego + testy t-studenta oparte na residuach dla
identyfikacji obserwacji odstajacych.
(ii) Obserwacje rozkladow brzegowych (+ ew przeksztalenie log x-ow)
oraz przeksztalcenia logtrans i boxcox zmiennej zaleznej y.
(iii) stepAIC + dropterm (ew addterm) dla selekcji cech.
(B) Aby koncowy model byl "dopuszczalny", nie dal sie "jednostanie",
czyli pod kazdym wzgledem, poprawic. Modele, ktore otrzymalem dla bodyfat
i samochodow takie sa. Np dla samochodow model m4, czyli logPaliwo ~ logPojemn
daje cor=.92 podczas, gdy modele wieksze m2 i m3 daja .93. W tym przypadku
model m3 rowniez uwazam za dopuszczalny.
7. W pliku PREDYKCJA/CrossValKlasCrabs.R jest porownanie qda
i nnet w kroswalidacji pieciokrotnej na danych crabs. Prosze zwrocic uwage na
parametry nnet:
(i) Nastawilem softmax=T, bo klasyfikuje do wiecej niz dwoch klas
(patrz help). Kryterium softmax to optymalizacja wiarygodnosci danych
w modelu bardzo bliskim dyskryminacji logistycznej.
Zaklada sie, ze log(p[k|x]) = f(k,W,x), gdzie k=1,...,K oznacza klase,
x - obserwacje, W - wagi (parametry) sieci oraz f jest funkcja klasyfikacyjna
sieci neuronowej (na wykladzie oznaczalem ja "y z daszkiem").
Regula klasyfikacyjna jest postaci d(x) = argmax_k f(k,W,x).
(ii) Latwo zauwazyc, ze siec neuronowa z kryterium softmax ma
(p+1+K)*size + K parametrow, gdzie p jest wymiarem wektora x oraz size oznacza
liczbe wezlow warstwy ukrytej. Nastawilem size=16, bo wtedy siec ma 164
parametry, przy 160 obserwacjach uczacych, wiec mozna ja uwazac za metode
nieparametryczna (dla porownania qda ma 80 parametrow). Ogolnie,
przyrownujac liczbe parametrow do liczby obserwacji n, otrzymujemy wzor:
size = ceiling( (n-K)/(p+1+K) ).
____________________________________________________________________
18.06.07 godz. 9.30. Przepraszam Panstwa, ze nie odzywalem sie wczesniej
- mialem awarie domowego kompa. Dzis i jutro bede do dyspozycji Panstwa
osobiscie lub przez tel 55 44 421 na wydziale w godz 10-22. Za kilka godz
planuje opisac Panstwu zad. egz.
____________________________________________________________________
24.03.07 godz 12.00. Prosze przeczytac wstep z pracy Campbella i Mahona
o crabach oraz wstep z pracy Johnsona o danych bodyfat. Obie prace znajduja sie
w katalogu DANE.
____________________________________________________________________