Termin poprawki dla osób, które chciałyby uzyskać zaliczenie lub poprawić swój stopień to 28 lutego (poniedziałek), godzina 15:00-16:30 sala 205 na WNE. Zasady te same co w terminie podstawowym - czyli trzeba pisać sprawdzian.
Zaliczenia
i wpisy - wysłałem do wszystkich zainteresowanych osób
informację (e-mailem) o wynikach sprawdzianu i proponowanych ocenach.
Jeśli ktoś tej informacji nie otrzymał, proszę się upomnieć.
Poza tym można mnie łapać pod koordynatami podanymi poniżej.
dr Marcin Szczuka
Instytut Matematyki UW
Banacha 2, pok. 1240
tel. 55 44 124
E-mail: szczuka@mimuw.edu.pl
konsultacje w semestrze zimowym: czwartki 10-12
Celem konwersatorium jest zapoznanie studentów z wybranymi metodami matematycznymi wykorzystywanymi w burzliwie rozwijającej się w ostatnich latach dziedzinie eksploracji danych (ang. Data Mining). W ramach zajęć przedstawione zostaną zagadnienia eksploracji i analizy danych połączone z podstawowymi informacjami o wykorzystywanych do tego modelach i narzędziach matematycznych. Metody, które zostaną omówione podczas zajęć dotykają takich dziedzin matematyki i informatyki jak statystyka, rachunek prawdopodobieństwa, teoria informacji, teoria maszynowego uczenia, systemy wspomagania decyzji, teoria aproksymacji, teoria złożoności obliczeniowej.
1. Dane, informacja i wiedza.
Przyczyny i cele prowadzenia eksploracji danych. Przykłady zastosowań w gospodarce i innych dziedzinach życia. Informacja jako towar i jako półprodukt. Wiedza jako towar rynkowy. Wydobywanie wiedzy z danych. Typowy schemat eksploracji danych i jego podstawowe składniki. Zadania decyzyjne, klasyfikacyjne i modelowanie.
2. Formalne podejście do obróbki danych
Przestrzeń doświadczeń, próbka treningowa i testowa, pojęcia i hipotezy. Rodzaje błędów dla hipotez. Przybliżanie błędu rzeczywistego. Miary jakości hipotezy i indukcyjna poprawność. Pojęcie metody (systemu) uczącego się.
3. Metody automatycznego odkrywania wiedzy
Zagadnienia przydatności, stosowalności, skalowalności i złożoności metody odkrywania wiedzy. Problem złożoności obliczeniowej (pesymistycznej), złożoności średniej i złożoności praktycznej. Miary złożoności i hierarchia asymptotyczna.
4. Przykładowe zagadnienia i metody odkrywania wiedzy (automatycznego uczenia):
a) Zagadnienia wstępne, przygotowywanie, ocena i normalizacja danych. Wybór próbki. Wybór kryteriów oceny.
b) Drzewa decyzyjne – pojęcie miary informacji i zysku informacyjnego, entropia informacji. Miara entropijna przyrostu informacji. Kryteria entropijne w tworzeniu drzew decyzyjnych. Algorytmy tworzenia drzew decyzyjnych i istniejące systemy komputerowe, które je wykorzystują. Analiza algorytmów tworzenia drzew pod kątem złożoności i stosowalności.
c) Reguły decyzyjne i reguły asocjacyjne. Algorytmy wydobywania reguł z danych. Algorytm Apriori i jego własności, algorytmy pokryciowe. Złożoność zadania konstruowania i wykorzystywania reguł.
d) Wnioskowanie probabilistyczne. Rozkłady częstościowe w danych, niezależność cech klas decyzyjnych. Reguła Bayesa i wnioskowanie bayesowskie. Ogólny i naiwny klasyfikator bayesowski: zastosowania, ograniczenia, złożoność.
e) Metody klasyfikacji i wnioskowania na podstawie przykładów. Metody „najbliższych sąsiadów” i lokalna regresja liniowa. Metody grupowania, klasteryzacja (clustering).
Uwaga: Tematy z pkt. 4 będą z realizowane w zakresie, na jaki pozwoli ograniczona objętość konwersatorium (30 godz.). W związku z tym niektóre zagadnienia mogą zostać potraktowane skrótowo lub pominięte.
Cichosz P., Systemy uczące się, WNT, Warszawa, 2000
Bolc L., Zaremba J., Wprowadzenie do uczenia się maszyn, Akademicka Oficyna Wydawnicza RM, Warszawa, 1992
Brandt S., Analiza danych, Wydawnictwo naukowe PWN, Warszawa, 1998
Mitchell T.M., Machine Learning, McGraw-Hill, 1997, Link do stony z materiałami
Berry M.J.A, Linoff G. Data Mining Techniques : For Marketing, Sales, and Customer Relationship Management (wydanie 2), Wiley Computer Publishing, 2004
Witten I., Frank E., Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 1999 Link do strony z materiałami
Forma zaliczenia:Dla malej części grupy (max 5 osób) będzie możliwe zaliczenie na stopień na podstawie krótkiej prezentacj (30 min.), na uzgodniony z wykładowcą, związany z zajęciami temat. Prezentacje będą przedstawiane pod koniec semestru. Pozostali uczestnicy zostaną ocenieni na podstawie frekwencji (zaliczenie za obecność = 3) i wyników sprawdzianu (pisemnego) przeprowadzonego na koniec semestru dla osób, które chcą otrzymać stopień wyższy niż 3.
|