Nie jesteś zalogowany | Zaloguj się

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

Prelegent(ci)
Mateusz Przyborowski
Afiliacja
MIMUW
Termin
17 kwietnia 2020 14:15
Informacje na temat wydarzenia
meet.google.com/jbj-tdsr-aop
Seminarium
Seminarium badawcze Zakładu Logiki: Wnioskowania aproksymacyjne w eksploracji danych

Algorytm UMAP to nieliniowa metoda redukcji wymiaru, oparta o techniki topologicznej analizy danych, która może być wykorzystana do wizualizacji wysokowymiarowych danych w sposób podobny do znanego np. z algorytmu t-SNE. Zakładamy, że dane są jednostajnie rozmieszczone na lokalnie spójnej rozmaitości riemannowskiej oraz że metryka riemannowska jest na niej (w przybliżeniu) lokalnie stała. Wówczas UMAP wykorzystuje przybliżenia lokalnych rozmaitości by połączyć ich reprezentacje rozmytych zbiorów symplicjalnych do utworzenia topologicznej reprezentacji wysokowymiarowych danych. Mając niskowymiarowe reprezentacje danych możemy również analogicznie spróbować zbudować równoważną topologiczną reprezentację. UMAP stara się zminimalizować entropię krzyżową pomiędzy tak uzyskanymi topologicznymi reprezentacjami, a więc szuka niskowymiarowej reprezentacji która w możliwie dobry sposób odzwierciedla topologiczną strukturę oryginalnych (wysokowymiarowych) danych.
Obecnie jednym z najpowszechniej używanych algorytmów nieliniowej redukcji wymiaru jest t-SNE. UMAP produkuje podobne lub lepsze reprezentacje, jako że zachowuje więcej globalnych cech danych, a sam wynik działania algorytmu, mierzony miarą Prokrusta, jest stabilniejszy. Ponadto UMAP, zarówno pod względem wymiarowości jak i rozmiaru danych, jest wydajniejszy od t-SNE.
W trakcie swojego referatu pragnę omówić sposób działania algorytmu UMAP oraz porównać uzyskane reprezentacje z wynikami najpopularniejszych algorytmów redukcji wymiaru.