TunedIT: Automated evaluation and collaborative benchmarking of data mining algorithms
- Speaker(s)
- Marcin Wojnarski
- Date
- Oct. 2, 2009, 2:15 p.m.
- Room
- room 5820
- Seminar
- Research Seminar of the Logic Group: Approximate reasoning in data mining
Tematem referatu będzie nowopowstały system TunedIT (http://tunedit.org/), służący do zautomatyzowanej i reprodukowalnej ewaluacji algorytmów data mining. TunedIT składa się z 3 powiazanych ze sobą modułów: aplikacji testujacej (TunedTester), Repozytorium i Bazy Wiedzy (Knowledge Base). TunedTester to aplikacja Javowa do automatycznej ewaluacji algorytmów, zapewniajaca reprodukowalnosc uzyskanych wyników. Dziala lokalnie na komputerze uzytkownika. Wszystkie zasoby potrzebne do uruchomienia danego testu sa automatycznie sciagane z Repozytorium. Na zyczenie uzytkownika TunedTester moze wyslac wyniki testów do Bazy Wiedzy, aby mogli z nich skorzystac inni. Dzieki automatyzacji testów, wyniki wygenerowane przez róznych uzytkowników sa poprawne i porównywalne, moga wiec byc laczone i wspólnie analizowane w Bazie Wiedzy. Moga byc tez latwo odtworzone i zweryfikowane przez innych badaczy. Repozytorium to publicznie dostepna kolekcja zasobów (plików) zwiazanych z data mining, zlokalizowana na serwerze TunedIT. Zasoby to miedzy innymi algorytmy, zbiory danych i procedury ewaluacji, które moga byc przetestowane za pomoca TunedTestera. Dzieki istnieniu Repozytorium, wyniki wygenerowane przez TunedTestera i zapisane w Bazie Wiedzy sa powiazane z konkretnymi testowanymi zasobami, a dzieki temu sa w pelni interpretowalne. Repozytorium pozwala tez na latwa wymiane zasobów miedzy naukowcami i uzytkownikami technik data mining. Baza Wiedzy to zbiór wyników testów wygenerowanych przez TunedTestera i przeslanych na serwer TunedIT. Baza Wiedzy laczy wyniki nadeslane przez róznych uzytkowników, dzieki czemu stanowi jedyne tak bogate i wszechstronne zródlo wiedzy o skutecznosci róznych algorytmów, testowanych na wielu róznych zbiorach danych. Uzytkownicy moga przegladac zawartosc Bazy Wiedzy za pomoca wygodnego interfejsu uzytkownika. Mozliwe jest tez pobranie danych w formie plików CSV, w celu dalszej analizy "off-line". Obecnie Baza Wiedzy zawiera pomiary wydajnosci niemal 100 róznych algorytmów - m.in. z bibliotek Weka i Rseslib - testowanych na kilkudziesieciu zbiorach danych, m.in. pochodzacych z repozytorium UCI. Zawartosc zarówno Bazy Wiedzy jak i Repozytorium moze byc rozszerzana przez wszystkich uzytkowników. Moduly systemu TunedIT posiadaja liczne mechanizmy bezpieczenstwa, zapewniajace ze wszystkie wyniki zgromadzone w Bazie Wiedzy sa poprawne, bez wzgledu na to, który uzytkownik je nadeslal. Baza Wiedzy nie moze byc zanieczyszczona ani omylkowo - przez bledy uzytkowników - ani celowo.