You are not logged in | Log in

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

Speaker(s)
Mateusz Przyborowski
Affiliation
MIMUW
Date
April 17, 2020, 2:15 p.m.
Information about the event
meet.google.com/jbj-tdsr-aop
Seminar
Research Seminar of the Logic Group: Approximate reasoning in data mining

Algorytm UMAP to nieliniowa metoda redukcji wymiaru, oparta o techniki topologicznej analizy danych, która może być wykorzystana do wizualizacji wysokowymiarowych danych w sposób podobny do znanego np. z algorytmu t-SNE. Zakładamy, że dane są jednostajnie rozmieszczone na lokalnie spójnej rozmaitości riemannowskiej oraz że metryka riemannowska jest na niej (w przybliżeniu) lokalnie stała. Wówczas UMAP wykorzystuje przybliżenia lokalnych rozmaitości by połączyć ich reprezentacje rozmytych zbiorów symplicjalnych do utworzenia topologicznej reprezentacji wysokowymiarowych danych. Mając niskowymiarowe reprezentacje danych możemy również analogicznie spróbować zbudować równoważną topologiczną reprezentację. UMAP stara się zminimalizować entropię krzyżową pomiędzy tak uzyskanymi topologicznymi reprezentacjami, a więc szuka niskowymiarowej reprezentacji która w możliwie dobry sposób odzwierciedla topologiczną strukturę oryginalnych (wysokowymiarowych) danych.
Obecnie jednym z najpowszechniej używanych algorytmów nieliniowej redukcji wymiaru jest t-SNE. UMAP produkuje podobne lub lepsze reprezentacje, jako że zachowuje więcej globalnych cech danych, a sam wynik działania algorytmu, mierzony miarą Prokrusta, jest stabilniejszy. Ponadto UMAP, zarówno pod względem wymiarowości jak i rozmiaru danych, jest wydajniejszy od t-SNE.
W trakcie swojego referatu pragnę omówić sposób działania algorytmu UMAP oraz porównać uzyskane reprezentacje z wynikami najpopularniejszych algorytmów redukcji wymiaru.