Nie jesteś zalogowany | Zaloguj się

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Prelegent(ci)
Andrzej Janusz
Termin
17 stycznia 2014 14:15
Pokój
p. 5820
Seminarium
Seminarium badawcze Zakładu Logiki: Wnioskowania aproksymacyjne w eksploracji danych

Tematem mojej prezentacji będzie pojęcie podobieństwa w analizie danych, a w szczególności problem uczenia się relacji podobieństwa na podstawie danych o dużej liczbie atrybutów. Pojęcie to pełni istotną rolę w dziedzinach uczenia  maszynowego i sztucznej inteligencji. Jest ono powszechnie wykorzystywane w zadaniach dotyczących nadzorowanej klasyfikacji,  rupowania, wykrywania nietypowych obiektów oraz planowania. Ponadto w dziedzinach takich jak wyszukiwanie informacji (ang. information retrieval) lub wnioskowanie na podstawie przykładów (ang. case-based reasoning) pojęcie podobieństwa jest kluczowe ze względu na jego obecność na wszystkich etapach wyciągania wniosków. 
Jednakże samo podobieństwo jest pojęciem niezwykle złożonym i wymyka się próbom ścisłego zdefiniowania. Stopień podobieństwa między dwoma obiektami może być różny w zależności od kontekstu w jakim się go rozpatruje. W praktyce trudno jest nawet ocenić jakość otrzymanych stopni podobieństwa bez odwołania się do zadania, któremu mają służyć. Z tego właśnie powodu modele oceniające podobieństwo powinny być wyuczane na podstawie danych, specjalnie na potrzeby realizacji konkretnego zadania. W moim wystąpieniu opiszę model uczenia się 
podobieństwa zwany Podobieństwem Opartym na Regułach (ang. Rule-Based Similarity). Wykorzystuje on elementy teorii zbiorów przybliżonych do konstruowania funkcji podobieństwa pozwalającej aproksymować podobieństwo w zadanym kontekście. Zaproponowany schemat uczenia się podobieństwa i funkcja podobieństwa, która jest jego wynikiem, mogą być wykorzystane do klasyfikacji nowych obiektów oraz do łączenia dokumentów tekstowych w semantycznie spójne grupy. Eksperymenty przeprowadzone na wielu zbiorach danych dowodzą, że zaproponowane modele mogą skutecznie konkurować nawet z powszechnie uznanymi 
rozwiązaniami.