• piatek, 21.09 godz 15.00. Na prosbe Pana Dziekana, zapraszam na dodatkowy egz komp Panow P.Macieja i W.Jerzego oraz na egz pis Panow N.Grzegorza i W.Jana. Oba egz chcialbym przeprowadzic we wt 2.10. o godz 12tej.

  • czwartek, 20.09 godz 15.30. Po konsultacji z p Niemiro zauwazylem, ze N. Grzegorz i W.Jan zaliczyli jeden egzamin, a do zaliczenia drugiego zabraklo im epsilona, czyli 0.5 punkta. Gotow jestem "dopytac" Panow 1-2 pazdziernika. Prosze, skontaktujcie sie Panowie z p Niemiro i obejrzyjcie swoje prace.

  • czwartek, 20.09 godz 10.30. Jesli k jest ocena z czesci komp oraz t ocena z czesci pis (teoretycznej), to ocene koncowa licze formulka:
    OK = function(k,t) {
    if (min(k,t)<3) OK = 2
    else if (abs(k-t)== 0.5) OK = k
    else if (abs(k-t)== 1.5) OK = k + sign(t-k)/2
    else OK = (k+t)/2
    OK
    }
  • sroda, 19.09 godz 23.15. W pliku EgzKomp040907punktacja.txt jest tabela ze zdobytymi punktami za kazde zadanie. Okazalo sie, ze byly jeszcze bledy w punktacji: Paniom S.Annie i W.Annie zanizylem poprzednio ocene! Przepraszam. W sprawie ocen konkretnych zadan prosze dzwonic dzis/jutro przez skype'a na pokaronskype (u mnie jest 7 godzin wczesniej).

  • sroda, 19.09 godz 22.30. W pliku EgzKomp040907punktacja.pdf. jest opis punktacji na egz komp. Za 0.5-1 godz podam tabele ze zdobytymi punktami za kazde zad.

  • sroda, 19.09 godz 20.50. Poprawilem bledy w sprawdzeniu egz komp. Za 2 godz opisze punktacje na tym egz. Prosze pamietac, ze niektore oceny na liscie pochodza z egz czerwcowego, na ktorym byla inna punktacja! Ponadto dopytywalem specjalnie osoby, ktore zaliczyly jeden egzamin, a do zaliczenia drugiego zabraklo im epsilona, czyli 0.5 punkta. Te zasade chcialbym zachowac, ale pytac bede dopiero w pazdzierniku, po powrocie do Polski.

  • sroda, 19.09 godz 19.15. Sprawdzilem egz komp i wystawilem oceny (Egz050907wyniki.txt). Potrzebuje 1-2 godz, zeby przeczytac wszystkie prace jeszcze raz i poprawic ew bledy sprawdzenia. Nastepnie przez 1-2 godz opisze punktacje na egz komp.

  • sroda, 19.09 godz 13.00. W przerwach miedzy swoimi zajeciami edytuje plik Egz050907wyniki.txt. Do pustej linii w tym pliku nowe wyniki sa juz wprowadzone. W dalszej kolejnosci opisze punktacje i wyniki egz komp. Bede czekal do czw wieczorem na reklamacje emalka lub skype'm (moje login: pokaronskype). Do nocy z czw na pt wstawie oceny do USOSa.

    ______________________________________________________________________________
  • wtorek, 18.09 godz 23.00. Jutro w godz 10-16 w pokoju 4410 mozecie Panstwo zobaczyc i reklamowac wyniki egz pis, ktory sprawdzal p Niemiro. W pliku EgzPis050907rozwiazania.pdf sa rozwiazania i punktacja (za kazdy podpunkt rozwiazania byl jeden punkt). Jutro tez podam wyniki egz komp i oceny koncowe. Bede czekal do czw na reklamacje i wieczorem czasu polskiego planuje wpisac oceny do USOSa.
    ______________________________________________________________________________
    ______________________________________________________________________________
  • poniedzialek, 2.07 godz 15.10. Dodatkowy egz pis dla osob, ktore dostaly 4 punkty odbedzie sie w najblizszy czw o godz 17.00. Spotykamy sie w pokoju 4210.
    ______________________________________________________________________________
  • poniedzialek, 2.07 godz 11.50. W pliku Egz200607wyniki.txt sa wyniki obu egz. Punktacja w egz pis wisi przed drzwiami do p 4210. Jestem dzisiaj na wydziale do wieczora. Zapraszam Panstwa na konsultacje i po wpisy ocen. Przypominam, ze osoby, ktore nie zaliczyly dokladnie jednego egzaminu sa zobowiazane zdawac we wrzesniu tylko ten egzamin. Wszyscy moga zdawac powtornie egzamin, jednak ocena koncowa bedzie liczona na podstawie najnowszego wyniku. Osoby, ktore dostaly 4 punkty w egz pis zapraszam na poprawke z tego egz w tym tygodniu. Proponuje czw lub pt o 17tej -co Panstwo o tym sadzicie?
    ______________________________________________________________________________
  • piatek, 29.06 godz 22.30. Uwzglednilem wiele reklamacji dotyczacych oceny egz pis i zdecydowalem sie przeczytac wszystkie prace jeszcze raz jutro ok poludnia. Mam nadzieje, ze ok 15tej bede mogl podac ostateczne wyniki.
  • piatek, 29.06 godz 13.20. Bede w pracy ok 14.15. Wyniki egz pisemnego i punktacje podam na wydziale.
  • piatek, 29.06 godz 11.00. Potrzebuje jeszcze ok 2 godz na sprawdzenie egz pisemnego. Nastepnie podam wyniki+punktacje i jade do pracy.
  • czwartek, 28.06 godz 21.10. W pliku EgzKomp200607punktacja.doc sa szczegoly dotyczace punktacji zadan z egzaminu komputerowego.
  • czwartek, 28.06 godz 18.10. W pliku EgzKomp200607wyniki.txt sa wyniki egzaminu komputerowego. Za ok 2 godz podam szczegoly punktacji. Wyniki egz. pis. podam jutro przed poludniem a od ok 13-14tej bede na wydziale do Panstwa dyspozycji. W przyszlym tyg bede czesto na wydziale (w pn od ok 12tej).
  • czwartek, 28.06 godz 12.00. Za kilka godzin (przed 18ta) podam wyniki egz.
  • sroda, 27.06 godz 22.00. Sprawdzilem ponad polowo w pre prac. Nastepny komunikat jutro o 12tej.
  • sroda, 27.06 godz 12.00. Sprawdzilem ok 1/3 prac. Mam nadzieje, ze do jutra sprawdze wszystkie. Nastepny komunikat o godz. 22giej.
  • wtorek, 26.06 godz 19.15. Bardzo Panstwa przepraszam za spoznienie. Dopiero dzisiaj moge sprawdzac Wasze prace. Jutro o 12tej nastepny komunikat.

  • wtorek, godz. 18.40. POPRAWKI cd.
    W opisie egz komp, punkt (v) powinno byc: "Narysowac estymatory gestosci dwoch pierwszych skladowych glownych w klastrach".
  • wtorek, godz. 15.30. POPRAWKI.
    (i) katalog DANE uzupelnilem o brakujace dane "bodyfat" analizowane przez Johnsona i spakowalem je razem z artykulem (plik pdf).
    (ii) program bodyfat.R w katalogu DANE wykorzystuje funkcje "dropterm" pokazujaca przyrost AIC po usunieciu kazdej cechy. AIC bylo dotad liczone z domyslnym k=2, co powodowalo niezgodnosc z wczesniejszym wywolaniem funkcji "stepAIC", dlatego do dropterm wstawilem k=log(nrow(X)).
    (iii) Usunalem ten sam program "bodyfat.R" z archiwum bodyfatBergemann.zip.

  • ____________________________________________________________________
  • 18tego i 19tego czerwca bede do dyspozycji Panstwa osobiscie lub przez tel 55 44 421 na wydziale w godz 10-22.

  • ____________________________________________________________________

    MOJE PLANY EGZAMINACYJNE (pn. godz 19.10)

    EGZAMIN KOMPUTEROWY (5-6 zadan)
    Ogolny opis zadan - rezerwuje sobie prawo do 20 % niespodzianki (raczej z programowania w R niz ze statystyki).

    1.- 2. Eksploracja.
    (i) Wczytac dane.
    (ii) Narysowac plaszczyzne dwoch glownych skladowych i policzyc udzial ich wariancji w calkowitej wariancji danych.
    (iii) Sprawdzic za pomoca boxplot.stats i boxplot, czy sa obs odstajace.
    (iv) Poklasteryzowac dane.
    (v) Narysowac estymatory gestosci dwoch pierwszych skladowych glownych w klastrach.

    3. Porownac efektywnosc 2-3 metod klasyfikacji (wg p-stwa popr. predykcji lub innej miary) klasyfikacji w eksperymencie kroswalidacji. Przypominam, ze poznali Panstwo: lda, qda, nnet, regresje logistyczna z glm i regresje wielomianowa z multinom (library(nnet)) oraz drzewa decyzyjne z pakietu rpart. ,

    4. Zbudowac model regresji lin wielu zmiennych. Mozna wykorzystac moje skrypty samochodyNowe.R i bodyfat.R.

    5. Zbudowac model lin dla danych nieliczbowych lub mieszanych. Wykonac selekcje cech za pomoca stepAIC. Mozna wykorzystac analizy z cwiczen na danych quine lub immer.

    ____________________________________________________________________

    EGZAMIN PISEMNY (5-6 zadan)
    Podaje wiekszy zbior zadan - nie wszystkie sa precyzyjnie sformulowane, te, ktore sa - moga byc troszke zmienione.

    1. PCA (albo LDA): wyprowadz wzor na pierwsza skladowa glowna (zmienna kanoniczna).

    2. Najwazniejsze wlasnosci korelacji, odleglosci Kullbacka-Leiblera lub wspolnej informacji.

    3. Rozklad wariancji lub rozklad macierzy kowariancji dla modelu liniowego.

    4. Sformuluj alg k-srednich i udowodnij, ze separowalnosc sep(k) jest funkcja niemalejaca o wartosciach w przedziale [0,1].

    5. Sformuluj alg. klasteryzacji aglomeracyjnej "complete linkage".

    6. Podaj wzor na optymalna regule decyzyjna z funkcja straty 1(d(x)!=k)/pi(k), gdzie pi jest rozkladem a-priori.

    7. Sformuluj wzory na klasyfikator otrzymany metodami LDA, QDA, dyskryminacja logistyczna (LOGISTIC), siecia neuronowa (NN). Podaj kryterium optymalizacyjne dla wyznaczania parametrow. Podaj liczbe parametrow kazdej metody zakladajac, ze klasyfikujemy n -obs p -wymiarowych do K -klas.
    Wskazowka: klasyfikatory sa postaci d(x) = argmax_k f(k,W,x), gdzie k=1,...,K, W - parametry, x-obs. Funkcje f nazywamy funkcjami klasyfikacyjnymi. Dla LDA i LOGISTIC f sa liniowe od x, dla QDA mamy f-cje kwadratowa.

    8. Zalozmy, ze S2 jest probkowa wariancja w modelu normalnym N(0,si^2). Policz rozklad n*S2/si^2.

    9. Niech X bedzie macierza danych oraz H = X %*% solve(t(X)%*%X) %*% t(X Udowodnij, ze (i) 0<= H[i,i] <=1; (ii) H[i,i] = cor(y[i],yPred[i])^2.

    ____________________________________________________________

    UWAGI.

    1. Mamy model logitowy logit(p(awaria[i]|x[i])) = t(c(1,x[i]))%*%beta, i=1,...,n.
    W zadaniu regresji logistycznej chodzi o estymacje p(awaria|x), w dyskryminacji - o interpretacje wspolczynnikow beta, w klasyfikacji - o decyzje d(x) = ifelse( p(awaria|x)>.5, 1, 0).

    2. Roznica miedzy dyskryminacja a klasyfikacja (predykcja do skon liczby klas) wynika z interpretacji zadania matem. Mowimy o dyskryminacji irysow, bo celem Fishera byl opis odmian tej rosliny za pomoca prostych mierzalnych cech. Powiemy o klasyfikacji kobiet Pima, bo dane te moga sluzyc do budowy taniego testu na obecnosc cukrzycy.

    3. Na cwiczeniach na ogol "wkladalismy" do lm wektor y i macierz X. Jest tak chyba prosciej na poczatku nauki R lub w sytuacji, gdy wszystkie zmienne sa liczbowe i jest ich duzo. Ogolniej, czyli dla modeli liniowych mieszanych (cechy liczbowe i nominalne) lub dla regresji logistycznej (glm) trzeba uzywac formul zawierajacych nazwy zmiennych, ktore sa kolumnami tabeli (data.frame). Np lm(fat~bmi+tri,data=data.frame(X)). Kiedy zmiennych wyjasniajacych jest duzo, to taki zapis jest niewygodny, wiec uzywa sie aliasu (skrotu) ".", ktory w lm lub glm oznacza "wszystkie cechy procz wyjasnianej". Np m1=lm(Paliwo~.,data=Auta) oznacza regresje zuzycia paliwa za pomoca pozostalych cech w tabeli Auta (tabela utworzona z danych samochody.dat).

    4. Funkcja update sluzy do wygodnego zapisu i rozwiazania modelu zmodyfikowanego, jesli mamy model wczesniejszy, tutaj m1. Zapis update(m1,.~.-Szer) oznacza nowa regresje zmiennej Paliwo za pomoca wszystkich pozostalych cech z wyjatkiem Szer. W zapisie ".~." pierwsza kropka oznacza lewa strone formuly z m1, druga kropka - prawa strone. Pierwsza kropke mozna pominac, ale wole tego nie robic! Podobna konwencja obowiazuje w stepAIC.

    5. Kryteria informacyjne minimalizowane w procedurach automatycznego wyboru modelu maja czesto postac:
    - logWiarygodnosc + wielkosc_modelu
    Pierwszy czlon oznacza blad w dopasowaniu modelu do danych uczacych; drugi czlon - kare za wielkosc modelu. Popularne sa dwa kryteria: AIC (Akaike Informacion Criterion) i BIC (Bayes Information Criterion).
    AIC = -logWiarygodnosc + 2*p
    BIC = -logWiarygodnosc +log(n)*p,
    gdzie p - wymiar wektora cech obserwowanych, n - liczba obserwacji.
    Widac, ze jedyna roznica miedzy AIC i BIC jest czynnik "k" stojacy przy p. Dlatego oba kryteria mozna optymalizowac jedna funkcja stepAIC, przestawiajac ewentualnie k. Domyslnie jest k=2, zgodnie z nazwa funckji.

    6. Zauwazacie Panstwo arbitralnosc wyboru koncowego modelu (dla bodyfa czy samochodow) i zastanawiacie sie, jak bede ocenial! - Chcialbym, zeby modele byly:

    (A) Otrzymane w oparciu o uniwersalne zasady:
    (i) Np procedure Bonferroniego + testy t-studenta oparte na residuach dla identyfikacji obserwacji odstajacych.
    (ii) Obserwacje rozkladow brzegowych (+ ew przeksztalenie log x-ow) oraz przeksztalcenia logtrans i boxcox zmiennej zaleznej y.
    (iii) stepAIC + dropterm (ew addterm) dla selekcji cech.

    (B) Aby koncowy model byl "dopuszczalny", nie dal sie "jednostanie", czyli pod kazdym wzgledem, poprawic. Modele, ktore otrzymalem dla bodyfat i samochodow takie sa. Np dla samochodow model m4, czyli logPaliwo ~ logPojemn daje cor=.92 podczas, gdy modele wieksze m2 i m3 daja .93. W tym przypadku model m3 rowniez uwazam za dopuszczalny.

    7. W pliku PREDYKCJA/CrossValKlasCrabs.R jest porownanie qda i nnet w kroswalidacji pieciokrotnej na danych crabs. Prosze zwrocic uwage na parametry nnet:

    (i) Nastawilem softmax=T, bo klasyfikuje do wiecej niz dwoch klas (patrz help). Kryterium softmax to optymalizacja wiarygodnosci danych w modelu bardzo bliskim dyskryminacji logistycznej. Zaklada sie, ze log(p[k|x]) = f(k,W,x), gdzie k=1,...,K oznacza klase, x - obserwacje, W - wagi (parametry) sieci oraz f jest funkcja klasyfikacyjna sieci neuronowej (na wykladzie oznaczalem ja "y z daszkiem"). Regula klasyfikacyjna jest postaci d(x) = argmax_k f(k,W,x).

    (ii) Latwo zauwazyc, ze siec neuronowa z kryterium softmax ma (p+1+K)*size + K parametrow, gdzie p jest wymiarem wektora x oraz size oznacza liczbe wezlow warstwy ukrytej. Nastawilem size=16, bo wtedy siec ma 164 parametry, przy 160 obserwacjach uczacych, wiec mozna ja uwazac za metode nieparametryczna (dla porownania qda ma 80 parametrow). Ogolnie, przyrownujac liczbe parametrow do liczby obserwacji n, otrzymujemy wzor:
    size = ceiling( (n-K)/(p+1+K) ).

    ____________________________________________________________________
  • 18.06.07 godz. 9.30. Przepraszam Panstwa, ze nie odzywalem sie wczesniej - mialem awarie domowego kompa. Dzis i jutro bede do dyspozycji Panstwa osobiscie lub przez tel 55 44 421 na wydziale w godz 10-22. Za kilka godz planuje opisac Panstwu zad. egz.


  • ____________________________________________________________________
  • 24.03.07 godz 12.00. Prosze przeczytac wstep z pracy Campbella i Mahona o crabach oraz wstep z pracy Johnsona o danych bodyfat. Obie prace znajduja sie w katalogu DANE.


  • ____________________________________________________________________