You are not logged in | Log in

SKALOWALNOŚĆ METOD EKSPLORACJI DANYCH I ODKRYWANIA WIEDZY W BAZACH DANYCH, ZE SZCZEGÓLNYM UWZGLĘDNIENIEM PRZYBLIŻONYCH ZALEŻNOŚCI POMIĘDZY ZBIORAMI ATRYBUTÓW

Speaker(s)
Dominik Ślęzak
Affiliation
Uniwersytet Warszawski
Date
Oct. 28, 2011, 2:15 p.m.
Room
room 5820
Seminar
Research Seminar of the Logic Group: Approximate reasoning in data mining

W dziedzinach Odkrywania Wiedzy w Bazach Danych i Systemów Uczących się, opracowano wiele metod uczenia się klasyfikatorów o dużej skuteczności. Jednak wciąż konieczne są dalsze badania nad skalowalnością tych metod dla dużych zbiorów danych. Nowe narzędzia potrzebne są zarówno dla analizy, jak i podsumowań danych. Narzędzia te muszą działać przy ograniczeniach ze względu na czas i pamięć. Powinny także umieć generować uproszczone reprezentacje danych, które byłyby zrozumiałe dla użytkowników.

Głównym celem nowo przyznanego grantu NCN pt. Wybrane Aspekty Skalowalności Metod Eksploracji Danych i Odkrywania Wiedzy w Bazach Danych będzie rozwój nowych skalowalnych metod eksploracji danych odnoszących się do znanych podejść, takich jak uczenie się drzew decyzyjnych, czy pokrywanie danych regułami decyzyjnymi, w połączeniu z wyznaczaniem podzbiorów cech i zespołów klasyfikatorów działających na podzbiorach zdekomponowanych danych. Szczególny nacisk zostanie położony na klasyfikatory oraz wyuczone z danych modele wspierające decyzje łatwo interpretowalne dla użytkowników i możliwe do przeliczenia, jeśli dane ulegną zmianie.

Grant obejmować będzie między innymi: 1. Algorytmy eksploracji dużych zbiorów danych poprzez automatycznie generowane analityczne kwerendy SQL, w tym kwerendy aproksymacyjne; 2. Metody uczenia się zespołów klasyfikatorów, zbiorów cech i wzorców dekompozycji dla dużych zbiorów danych zmieniających się w czasie; 3. Algorytmy eksploracji dużych zbiorów danych działające interakcyjnie na statystycznych podsumowaniach granul danych i na danych szczegółowych. Lista zadań związanych z różnymi aspektami skalowalności jest jednak otwarta.

W swoim wystąpieniu nawiążę także do wyników zawartych w rozprawie habilitacyjnej pt. Przybliżone Zależności Zbiorów Atrybutów w Eksploracji Danych i Wnioskowaniach Aproksymacyjnych, które – oprócz zapewnienia matematycznych i algorytmicznych podstaw dla stosowania szerokiej gamy metod wyrażania i posługiwania się przybliżonymi zależnościami funkcyjnymi oraz przybliżonymi niezależnościami warunkowymi – prowadzić mogą ku nowym metodom skalowalnej selekcji zbiorów cech. W istocie, metody wyrażania przybliżonych zależności pomiędzy zbiorami atrybutów mogą być inspirowane nie tylko samą naturą danych bądź chęcią wyznaczania konkretnych rodzajów modeli decyzyjnych, ale także koniecznością analizy dużych zbiorów danych w sposób aproksymacyjny.

W miarę możliwości, wystąpienie obejmie również inne materiały wchodzące w skład kolokwium habilitacyjnego, które wiążą się z zagadnieniami skalowalności metod eksploracji i przetwarzania danych: 1. Kolumnowe i granularne silniki RDBMS; 2. Analiza skupień dla danych strumieniowych; 3. Aproksymacyjne rozszerzenia języka SQL.