Wybrane aspekty interaktywnej ekstrakcji cech
- Speaker(s)
- Marek Grzegorowski
- Affiliation
- MIMUW
- Date
- Nov. 5, 2021, 2:15 p.m.
- Information about the event
- 5820 i online https://meet.google.com/jbj-tdsr-aop
- Seminar
- Seminar Intelligent Systems
Prezentacja będzie próbą generalną przed obroną rozprawy pt. "Wybrane aspekty interaktywnej ekstrakcji cech" (ang. Selected aspects of interactive feature extraction).
W rozprawie poruszono problem interaktywnej ekstrakcji cech (ang. interactive feature extraction) oraz zaproponowano szereg innowacyjnych podejść do automatyzacji procesu ich tworzenia i selekcji rozważając możliwość angażowania w ten proces użytkowników. Przedstawiono aktualny stan wiedzy w dziedzinie ekstrakcji atrybutów oraz zaprezentowano znane z literatury zastosowania komercyjne tego procesu. Omówiono wyzwania związane z przetwarzaniem dużych zbiorów danych, ze szczególnym naciskiem na przetwarzanie wielowymiarowych szeregów czasowych. Poddano dyskusji problem opracowania takiej reprezentacji danych, która byłaby zrozumiała dla ekspertów dziedzinowych. W tym celu, przedyskutowano możliwość wykorzystania atrybutów uzyskiwanych metodą przesuwnego okna czasowego oraz granulacji atrybutów. Opracowane metody i algorytmy ekstrakcji cech poddano weryfikacji eksperymentalnej oraz przedstawiono ich zastosowania w wybranych projektach naukowych.
Ekstrakcja cech to proces przetwarzania otrzymanych danych, który prowadzi do uzyskania reprezentacji odpowiednio sprofilowanej do analizowanego problemu. Tym samym przyczynia się do poprawy wydajności przetwarzania danych i optymalizacji procesu modelowania oraz umożliwia pozyskiwanie atrybutów, które mogą być wykorzystywane zarówno przez ekspertów dziedzinowych, jak i algorytmy uczenia maszynowego. Wyróżnia się dwie zasadnicze fazy tego procesu: pierwsza to konstrukcja nowych cech (ang. feature engineering), natomiast druga to wybór najistotniejszych spośród uzyskanych w ten sposób atrybutów (ang. feature selection). Istnieje wiele podejść do automatyzacji procesu tworzenia i selekcji atrybutów, trudno jednak znaleźć metody wspierające interakcję z użytkownikami, które uwzględniałyby wiedzę dziedzinową pozyskiwaną od ekspertów, ich doświadczenie i preferencje.
W badaniach nad interaktywnością procesu ekstrakcji cech poruszono problemy związane z uzyskiwaniem użytecznych i zrozumiałych dla ekspertów atrybutów z wielowymiarowych danych, a także możliwość ograniczenia ilości tych atrybutów w celu uzyskania możliwie najprostszych, ale dokładnych modeli. Zaproponowane w rozprawie nowe metody interaktywnej ekstrakcji cech wykraczają poza obecnie znane standardy, umożliwiając skuteczniejszy sposób wyrażania wiedzy dziedzinowej związanej z najważniejszymi podzbiorami atrybutów. Zaproponowane algorytmy konstrukcji i doboru cech wykorzystują różne formy granulacji przestrzeni atrybutów, a także pozwalają na wydajne przetwarzanie dużych danych poprzez zrównoleglenie obliczeń. Na szczególną uwagę zasługuje zaproponowana metoda uodpornienia algorytmów selekcji atrybutów na ewentualne braki w danych, która pozwala znacząco zmniejszyć wymiarowość danych gwarantując jednocześnie zachowanie niezbędnego poziomu informacji (wg zadanego kryterium) do predykcji zmiennej celu, nawet po usunięciu określonej liczby atrybutów.
Przedstawione podejścia do ekstrakcji cech zostały wypracowane na podstawie doświadczeń z projektów naukowych z dziedziny analizy danych tekstowych oraz przetwarzania strumieni sensorycznych. Przedstawione metody zostały zweryfikowane pod względem jakości uzyskanych cech, jak również przepustowości, skalowalności i stabilności działania. Zaproponowane rozwiązania zostały zweryfikowane w ramach miedzynarodowych konkursów analizy danych.
Plan wystąpień w tej edycji jest dostępny tutaj
The schedule of presentations can be checked here