You are not logged in | Log in

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Speaker(s)
Andrzej Janusz
Date
Jan. 17, 2014, 2:15 p.m.
Room
room 5820
Seminar
Research Seminar of the Logic Group: Approximate reasoning in data mining

Tematem mojej prezentacji będzie pojęcie podobieństwa w analizie danych, a w szczególności problem uczenia się relacji podobieństwa na podstawie danych o dużej liczbie atrybutów. Pojęcie to pełni istotną rolę w dziedzinach uczenia  maszynowego i sztucznej inteligencji. Jest ono powszechnie wykorzystywane w zadaniach dotyczących nadzorowanej klasyfikacji,  rupowania, wykrywania nietypowych obiektów oraz planowania. Ponadto w dziedzinach takich jak wyszukiwanie informacji (ang. information retrieval) lub wnioskowanie na podstawie przykładów (ang. case-based reasoning) pojęcie podobieństwa jest kluczowe ze względu na jego obecność na wszystkich etapach wyciągania wniosków. 
Jednakże samo podobieństwo jest pojęciem niezwykle złożonym i wymyka się próbom ścisłego zdefiniowania. Stopień podobieństwa między dwoma obiektami może być różny w zależności od kontekstu w jakim się go rozpatruje. W praktyce trudno jest nawet ocenić jakość otrzymanych stopni podobieństwa bez odwołania się do zadania, któremu mają służyć. Z tego właśnie powodu modele oceniające podobieństwo powinny być wyuczane na podstawie danych, specjalnie na potrzeby realizacji konkretnego zadania. W moim wystąpieniu opiszę model uczenia się 
podobieństwa zwany Podobieństwem Opartym na Regułach (ang. Rule-Based Similarity). Wykorzystuje on elementy teorii zbiorów przybliżonych do konstruowania funkcji podobieństwa pozwalającej aproksymować podobieństwo w zadanym kontekście. Zaproponowany schemat uczenia się podobieństwa i funkcja podobieństwa, która jest jego wynikiem, mogą być wykorzystane do klasyfikacji nowych obiektów oraz do łączenia dokumentów tekstowych w semantycznie spójne grupy. Eksperymenty przeprowadzone na wielu zbiorach danych dowodzą, że zaproponowane modele mogą skutecznie konkurować nawet z powszechnie uznanymi 
rozwiązaniami.